BLOGS

白(bái)話(huà)大(dà)數(shù)據與機(jī)器(qì)學習(xí)讀(dú)書(sh→ū)筆(bǐ)記

這(zhè)本書(shū)作(zuò)為(wèi)大(dà)數(shù)據與機(jī)器(qì)學習(xí)的(de)入門✔(mén)書(shū)籍,使用(yòng)很(hěn)輕松的(de)方式引出了(le)機(jī)器(qì)學習(xí)的(de)重要(yào)概念。每一(yī)節原理(l←ǐ),實例和(hé)相(xiàng)關計(jì)算(suàn)公式介紹偏多(duō),輔以簡單的(de)Python實現(xiàn)≤。讓人(rén)不(bù)再對(duì)機(jī)器(qì)學習(xí)望而卻步。

從(cóng)書(shū)的(de)目錄裡(lǐ)可(kě)以看(kàn)到(dào)整本書(shū)的(de)脈絡;基本上(shàng)是(shì)從(c×óng)數(shù)據統計(jì)、數(shù)據指标理(lǐ)解、數(shù)據模型、聚類、分(fēn)σ類與機(jī)器(qì)學習(xí)、數(shù)據應用(yòng)、大(dà)數(shù)據框架補充知(zhī)識,以及擴展↑討(tǎo)論這(zhè)樣的(de)角度來(lái)層層深入完成的(de)。大(dà)數(shù)據産業(yè)生(shēng)産流程從(cóng)數(shù)↓據的(de)生(shēng)命周期的(de)傳導和(hé)演變上(shàng)可(kě)以分(fēn)為(wèi)這(zhè)樣幾個(gè)部分(fēn):數(shù)據收集、數(shù)據存儲↓、數(shù)據建模、數(shù)據分(fēn)析、數(shù)據變現(xiàn),而數(shù)據的(de)認識和(hé)數(shù)據的(de )應用(yòng)是(shì)大(dà)數(shù)據與機(jī)器(qì)學習(xí)的(de)基礎→,數(shù)據、信息、算(suàn)法、概率、數(shù)據挖掘、商業(yè)智能(néng),這(zhè)些(xiē)事(sσhì)大(dà)數(shù)據最為(wèi)核心的(de)基礎概念與要(yào)素。

數(shù)據分(fēn)析內(nèi)容非常的(de)龐雜(zá),應用(yòng)的(de)領域非常的(de)廣,需要(yà>o)學習(xí)了(le)解相(xiàng)關排列組合、統計(jì)、分(fēn)布、概率、指标、向量、維度的σ(de)知(zhī)識,了(le)解一(yī)些(xiē)概念,包括加權值、平均值、标準差、衆數(shù)、中位數(shù)、同比、環比、抽樣、高(‍gāo)斯分(fēn)布、泊松分(fēn)布、伯努利分(fēn)布;在很(hěn)多(duō)機(jī)器(qì)學習(xí)方法中都(dōu)會(huì)使用(yòng)到(dào) 一(yī)些(xiē)距離(lí)算(suàn)法,例如(rú):歐式距離(lí)、曼哈頓距離(lí€)等;雖然信息論和(hé)很(hěn)多(duō)數(shù)據挖掘算(suàn)法沒有(yǒu)直接的(de)關聯應用(yòng),但(dàπn)是(shì)也(yě)有(yǒu)相(xiàng)當比例的(de)機(jī)器(qì)學習(xí)算(suàn)法中ε應用(yòng)到(dào)了(le)信息論的(de)概念;在信息論裡(lǐ)最重要(yào)的(de)內(nèi)容就(jiù)是(shì)香農(nóng)公式和(hé)熵;香•農(nóng)公式可(kě)以計(jì)算(suàn)信噪比,信噪比越大(dà)傳輸速度越大(dà)。熵包括熱(rè)力熵和(hé)信息熵,在信息論裡(lǐ)熵就(jiφù)是(shì)描述信息雜(zá)亂度的(de)量化(huà)描述,信息越确定,越單一(yī),信息熵越小(xiǎo),信息越不(bù)✘确定,越混亂,信息熵越大(dà)。

機(jī)器(qì)學習(xí)(Machine Learning, ML)是(shì)一(yī)門(mén)多(duō)領域交叉學科(kē),涉及概率論、統計(÷jì)學、逼近(jìn)論、凸分(fēn)析、算(suàn)法複雜(zá)度理(lǐ)論等多(duō)門(mén)學科(kē)。專門(mén)研究計(jì)算(¶suàn)機(jī)怎樣模拟或實現(xiàn)人(rén)類的(de)學習(xí)行(xíng)為(wèi),以獲取新的(de)知(zhī)識或技(jì)能(néng),重新組織已有(yǒu)的♣(de)知(zhī)識結構使之不(bù)斷改善自(zì)身(shēn)的(de)性能(néng)。它是(shì)人(rén)工π(gōng)智能(néng)的(de)核心,是(shì)使計(jì)算(suàn)機(jī)具有(yǒu)智能(néng)的(de)根本途徑,其應用(yòng) 遍及人(rén)工(gōng)智能(néng)的(de)各個(gè)領域,它主要(yào)使用(yòng)歸納、綜合而不(bù)是(shì)演繹,機(jī)器(qì)學習(xí)算(suàn)法"根據訓練數(shù)據(training data)使得(de)表示算(suàn)法行(xíng)為(wèi)的(de)數(shù)學目标最大(dà)化(huà),并以此$來(lái)進行(xíng)預測或者做(zuò)出決定。機(jī)器(qì)學習(xí)分(fēn)為(wèi)分(fēn)類、₽回歸、聚類等。按照(zhào)使用(yòng)場(chǎng)景來(lái)分(fēn)的(de)話(huà),機(jī)器(qì)學習(xí)中的(de')算(suàn)法分(fēn)監督學習(xí)和(hé)無監督學習(xí);監督學習(xí)的(de)相(xiàng )關算(suàn)法需要(yào)先使用(yòng)訓練數(shù)據進行(xíng)學習(xí),然後對(duì)輸入數(shù)據進行(xíng)處理(l‍ǐ)得(de)到(dào)結果;無監督學習(xí)不(bù)需要(yào)訓練數(shù)據;機(jī)器(qì)學習(xí)的( de)算(suàn)法非常多(duō),大(dà)緻可(kě)以分(fēn)三類:分(fēn)類、回歸、聚類。一(yī)般認為(wèi)回歸和(hé)分(fēn)類是(shì)監督學習γ(xí),聚類是(shì)無監督學習(xí)。

回歸是(shì)一(yī)種解題方法,或者說(shuō)“學習(xí)”方法,是(shì)機(jī)器(qì)學習(xí)中比較重要(yào)的(de)概念。從(cón>g)機(jī)器(qì)學習(xí)的(de)角度來(lái)說(shuō),回歸算(suàn)法應該算(suàn)作(zuò)“分ε(fēn)類”算(suàn)法,主要(yào)是(shì)線性回歸;在使用(yòng)線性回歸時(shí)需要(yào)注意過拟合、欠拟合問(wèn)題。非線性回歸的(de)情況太過複雜(z☆á),在生(shēng)産實踐中盡量避免使用(yòng)這(zhè)種模型。

聚類也(yě)是(shì)一(yī)個(gè)很(hěn)有(yǒu)趣的(de)算(suàn)法,能(néng)把相(xiàng)關性的(de)數(shù)據自(z∑ì)動聚集到(dào)一(yī)起。聚類的(de)第一(yī)個(gè)算(suàn)法叫K-Means;聚類的(de)算(suàn)法屬于無監督學↔習(xí),不(bù)需要(yào)事(shì)先準備訓練數(shù)據,聚類的(de)行(xíng)為(wèi)本源還(hái)是(shì)人(rén€)自(zì)身(shēn),符合人(rén)類自(zì)己的(de)思考方式。

分(fēn)類與聚類是(shì)不(bù)同的(de)兩種實現(xiàn)方法,雖然看(kàn)起來(lái)很(hěn)像。分(fēn)類算₩(suàn)法是(shì)機(jī)器(qì)學習(xí)中的(de)一(yī)個(gè)重點;使用(yòng)分≠(fēn)類算(suàn)法前,首先知(zhī)道(dào)大(dà)量的(de)樣本對(duì)象,并知(zhī)道(dào)這(zhè)些(xiē)樣本的(de)特征和≈(hé) 所屬類别,把這(zhè)些(xiē)數(shù)據告訴計(jì)算(suàn)機(jī),讓計(jì)算(suàn)機(jī)學會(hu≈ì)了(le)應該怎麽分(fēn)類,然後輸入未分(fēn)類的(de)樣本給它,讓它完成分(fēn)類過程。分(fēn)類算(suàn)法主要(yào)包括:樸素貝葉斯、決§策樹(shù)歸納、随機(jī)森(sēn)林(lín)、隐馬爾科(kē)夫模型、支持向量機(jī)SVM、遺傳算(suàn)法。在分(fēn)類算(suàn)法中最主要(yà o)需要(yào)掌握樸素貝葉斯算(suàn)法如(rú)何預測事(shì)件(jiàn),書(shū)中舉了(le)天氣預報(bào)與垃圾郵件(jiàn)預測。S↕VM的(de)精髓在于,低(dī)維上(shàng)解決不(bù)了(le)的(de)分(fēn)類,映射到(dào)高(gāo)維上¶(shàng)總能(néng)找的(de)解,即所謂的(de)“超平面”。分(fēn)類算(suàn)法非常多(duō),常用(yòng)還‌(hái)有(yǒu)使用(yòng)梯度算(suàn)法的(de)邏輯回歸預測性别等。

在書(shū)的(de)後幾章(zhāng)主要(yào)講了(le)關聯分(fēn)析、用(yòng)戶∏畫(huà)像設計(jì)、推薦算(suàn)法、文(wén)本挖掘及人(rén)工(gōng)神經網絡。其中比較重要(yào)的(de)是(shì)關聯分(fēn)析和(hé‍)人(rén)工(gōng)神經網絡;關聯規則是(shì)人(rén)類認識客觀事(shì)物(wù)中形成的(de)一(yī)種認知(zh>ī)模式,相(xiàng)關概念主要(yào)是(shì)頻(pín)繁模式和(hé)Apriori算(suàn)♥法;書(shū)中舉了(le)顧客到(dào)超市(shì)買東(dōng)西(xī)的(de)例子(zǐ),在日(rì)常場(chǎng)景中可(kě)以經常碰β到(dào),可(kě)以結合用(yòng)戶畫(huà)像和(hé)推薦算(suàn)法進行(xíng)推薦商品或者分(fēn)析那(nà)些(xiē)事(shì)物(wù)與那(nà)些(✘xiē)事(shì)物(wù)無關。人(rén)工(gōng)神經網絡從(cóng)字面也(yě)可(kě)以理(lǐ)解,讓計(jì)算(suàn)機φ(jī)像人(rén)腦(nǎo)一(yī)樣思考;當人(rén)類意識到(dào)人(rén)腦(nǎo)的(de)工(gōng)作(zuò)方式與計(jì)算(¶suàn)機(jī)有(yǒu)著(zhe)極大(dà)不(bù)同時(shí),人(rén)類就(jiù)開(kāi)始逐漸研究人(rén)工(gōng)神經網絡(ANN),希望能(n¶éng)夠從(cóng)仿生(shēng)學的(de)角度給這(zhè)種研究代理(lǐ)新的(de)動力。人(rén)工(gōng)神經網絡是(shì)受到(dào)人™(rén)類大(dà)腦(nǎo)結構的(de)啓發而創造出來(lái)的(de),這(zhè)也(yě)是(shì)它能±(néng)擁有(yǒu)真智能(néng)的(de)根本原因。在我們的(de)大(dà)腦(nǎo)中,有(yǒu)‍數(shù)十億個(gè)稱為(wèi)神經元的(de)細胞,它們連接成了(le)一(yī)個(gè)神經網絡,人(r&én)工(gōng)神經網絡正是(shì)模仿了(le)上(shàng)面的(de)網絡結構。常見(jiàn)的(de)神經網絡包括:感知(zhī)器(qì)網絡、BP神 經網絡、SOM網絡、Hopfield網絡、波爾茨曼機(jī)和(hé)卷積神經網。

學習(xí)了(le)回歸、樸素貝葉斯、決策樹(shù)、支持向量機(jī)及人(rén)工(gōng)神經網後,可(kě)以發現(₩xiàn)這(zhè)些(xiē)算(suàn)法的(de)思路(lù)都(dōu)有(yǒu)一(yī)£個(gè)共同點,都(dōu)是(shì)在研究多(duō)維向量空(kōng)間(jiān)分(fēn)類問(wèn)題,都(d​ōu)是(shì)根據衆多(duō)的(de)訓練樣本得(de)到(dào)某一(yī)個(gè)或幾個(gè)分(fēn)類的(de)映射關系,判斷新給定樣本的(de)分(fēn)類歸屬問(wè↔n)題。