每日最新頭條.有趣資訊

清華178頁深度報告:一文看懂AI數據挖掘

數據挖掘(Data Mining)是一門跨學科的電腦科學分支,它用人工智能、機器學習、統計學和數據庫的交叉方法,在大規模數據中發現隱含模式,在零售、物流、旅遊等行業有著廣泛應用場景。

在數據爆炸的時代裡,如何利用手中數據資源提高行業效率、提高行業品質,成為了眾多企業決策者所關注的問題,數據挖掘也逐漸成為當下的熱門研究領域之一,受到了谷歌、亞馬遜、阿里、百度等科技巨頭的追捧。

本期的智能內參,我們推薦來自清華大學人工智能研究院、北京智源人工智能研究院、清華-工程院知識智能聯合研究中心聯合推出的人工智能數據挖掘報告,詳細解讀了數據挖掘技術應用領域、研究概念、算法實現、與發展趨勢。如果想收藏本文的報告(清華AMiner-人工智能之知識圖譜),可以前往AMiner官網(https://www.aminer.cn/research_report/5c3d5a5cecb160952fa10b76?download=true)獲取下載。

以下為智能內參整理呈現的乾貨:

數據挖掘與KDD

數據挖掘(Data Mining),是指從大量的數據中自動搜索隱藏於其中的有著特殊關係性的數據和資訊,並將其轉化為電腦可處理的結構化表示。

目前數據挖掘的主要功能包括概念描述、關聯分析、分類、聚類和偏差檢測等,用於描述對象內涵、概括對象特徵、發現數據規律、檢測異常數據等。

一般來說,數據挖掘過程有五個步驟:確定挖掘目的、數據準備、進行數據挖掘、結果分析、知識的同化

數據挖掘過程基本步驟

1、確定挖掘目的

認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最後結果是不可預測的,但要探索的問題應是有預見的。

2、數據準備

數據準備又分為三個階段:

1)數據的選擇:搜索所有與目標對象有關的內部和外部數據資訊,並從中選擇出適用於數據挖掘應用的數據;

2)數據的預處理:研究數據的品質,為進一步的分析做準備,並確定將要進行的挖掘操作的類型;

3)數據的轉換:將數據轉換成一個分析模型。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。

3、進行數據挖掘

對得到的經過轉換的數據進行挖掘。

4、結果分析

解釋並評估結果,其使用的分析方法一般應視數據挖掘操作而定,通常會用到可視化技術。

5、知識的同化

將分析所得到的知識集成到所要應用的地方去。

數據挖掘的分類表

如上圖所示,數據挖掘有多種分類方式,可以按照挖掘的數據庫類型、挖掘的知識類型、挖掘所用的技術類型進行分類。

同時,數據挖掘也可以按照行業應用來進行分類,比如生物醫學、交通、金融等行業都有其獨特的數據挖掘方法,不能做到用同一個數據挖掘技術應用到各個行業領域

數據挖掘是知識發現(KDD)的一個關鍵步驟。1989年8月,Gregory I. Piatetsky- Shapiro等人在美國底特律的國際人工智能聯合會議(IJCAI)上召開了一個專題討論會(workshop),首次提出了知識發現(Knowledge Discovery in Database,KDD)這一概念。

數據挖掘是知識發現的過程之一

KDD涉及數據庫、機器學習、統計學、模式識別、數據可視化、高性能計算、知識獲取、神經網絡、資訊檢索等眾多學科和技術的集成,再後來的30年間KDD逐漸形成了一個獨立、蓬勃發展的交叉研究領域。

早期比較有影響力的發現算法有:IBM的Rakesh Agrawal的關聯算法、UIUC大學韓家煒(Jiawei Han)教授等人的FP Tree算法、澳大利亞的John Ross Quinlan教授的分類算法、密西根州立大學Erick Goodman的遺傳算法等等。

目前,數據挖掘已經引起國際、國內工業界的廣泛關注,IBM、谷歌、亞馬遜、微軟、Facebook、阿里巴巴、騰訊、百度等都在數據挖掘研究方面進行了應用與理論研究。

國際知識發現與數據挖掘大會(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,簡稱SIGKDD)是數據挖掘領域的頂級國際會議,由ACM的數據挖掘及知識發現專委會負責協調籌辦,會議內容涵蓋數據挖掘的基礎理論、算法和實際應用。

數據挖掘源於商業的直接需求

數據挖掘技術從一開始就是面向應用的,源於商業的直接需求。目前數據挖掘在零售、旅遊、物流、醫學等領域都有所應用,可以大大提高行業效率和行業品質。

舉個例子,零售是數據挖掘的主要應用領域之一。這是因為由於條碼技術的發展使得前端收款機系統可以收集大量售貨、顧客購買歷史記錄、貨物進出狀況、消費與服務記錄等數據。

數據挖掘技術有助於識別顧客購買行為,發現顧客購買模式和趨勢,改進服務品質,取得更高的顧客保持力和滿意程度,減少零售業成本。

同時,同一顧客在不同時期購買的商品數據可以分組為序列,序列模式挖掘可用於分析顧客的消費或忠誠度的變化,據此對價格和商品的花樣加以調整和更新,以便留住老客戶,吸引新客戶。

與此同時,社交網絡也是數據挖掘研究中的熱門領域,比如新浪微博就是擁有海量數據的資訊平台。

截止到2017年12月,新郎微博已擁有接近4億活躍用戶,內容存量超千億,“大V”的一舉一動和社會熱點話題都會引起大量的評論與轉發,掀起一股“數據風暴”。

柯潔烏鎮大戰AlphaGo撼負後的微博熱議

微博上每個用戶的言論、轉發內容等都蘊藏著用戶個人的興趣、話題等資訊,文字內容本身的智能分析理解也是數據分析領域長久以來孜孜不倦追求的目標。

社會網絡中的聚類被稱為社區發現,許多精心設計的高效算法可以很好地處理上億用戶的大規模網絡。

針對微博用戶的海量數據,對其進行數據描述性可以分析群體的年齡、性別比例、職業等;對於平均數、中位數、分位數、方差等統計指標可以幫助我們粗略了解數據分布;回歸分析、方差分析等方法則可以解釋年齡、職業等因素是否會影響用戶對某熱門話題的關注程度。

此外,數據挖掘在旅遊、物流、醫學等領域都有著廣泛的應用場景。比如數據挖掘可以對旅遊客流的趨向有著準確的預知性,同時對於遊客的喜好也有著直接性的掌握;從醫學數據中尋找潛在的關係或規律,可以獲得對病人進行診斷、治療的有效知識,增加對疾病預測的準確性等。

人工智能與數據挖掘

數據挖掘從一個新的視角將數據庫技術、統計學、機器學習、資訊檢索技術、數據可視化和模式識別與人工智能等領域有機結合起來,它組合了各個領域的優點,因而能從數據中挖掘到運用其他傳統方法不能發現的有用知識。

一般來說,統計特徵只能反映數據的極少量資訊。簡單的統計分析可以幫助我們了解數據,如果希望對大數據進行逐個地、更深層次地探索,總結出規律和模型,則需要更加智能的基於機器學習的數據分析方法。

所謂“機器學習”,是基於數據本身的,自動構建解決問題的規則與方法。數據挖掘中既可以用到非監督學習方法,也可以用到監督學習方法。

1、非監督學習

非監督學習是建立在所有數據的標簽,即所屬的類別都是未知的情況下使用的分類方法。對於特定的一組數據,不知道這些數據應該分為哪幾類,也不知道這些類別本來應該有怎樣的特徵,只知道每個數據的特徵向量。若按它們的相關程度分成很多類,最先想到的想法就是認為特徵空間中距離較近的向量之間也較為相關,倘若一個元素只和其中某些元素比較接近,和另一些元素則相距較遠。

這時候,我們就希望每一個類有一個“中心”,“中心”也是特徵向量空間中的向量,是所有那一類的元素在向量空間上的重心,即他的每一維為所有包含在這一類中的元素的那一維的平均值。如果每一類都有這麽一個“中心”,那麽我們在分類數據時,只需要看他離哪個“中心”的距離最近,就將他分到該類即可,這也就是K-means算法的思路。

K-means算法,在1957年由Stuart Lloyd在貝爾實驗室提出,最初用於解決連續的圖區域劃分問題,1982年正式發表。1965年,E.W.Forgy發明了Lloyd-Forgy or。James MacQueen在1967年將其命名為K-means算法。

上圖是以隨機生成的數據點為例,k=3的K-means算法的迭代過程,其中五角星為聚類中心,點的顏色是其類別。在實際應用中,為了獲得一個比較好的特徵空間,使得“數據之間的相似性與他們在特徵空間上的距離有關,距離越近越相似”這句話盡可能成立,我們往往會構建模型來把原數據變換到這麽一個特徵空間,然後使用K-means算法來進行分類。

2、監督學習

不同於非監督學習,若已知一些數據上的真實分類情況,現在要對新的未知的數據進行分類。這時候利用已知的分類資訊,可以得到一些更精確的分類方法,這些就是監督學習方法。

1)決策樹模型

所謂決策樹,即是一種根據條件來進行判斷的邏輯框架。其中,判斷的條件,即提出有區分性的問題,以及對於不同的回答下一步的反映,以及最終的決策給出標簽。

決策樹算法:

1.選取包含所有數據的全集為算法的初始集合A0:

2.對於當前的集合A,計算所有可能的“問題”在訓練集上的F(A,D):

3.選擇F(A,D)最大的“問題”,對數據進行提問,將當前的集合由“問題”的不同回答,劃分為數個子集;

4.對每個子集,重複b、c,直到所有子集內所有元素的類別相同;

5.在實際應用中,數據往往有很多特徵,因此,“問題”往往是選取數據的某一特徵,而“回答”則是此特徵對應的值。

在決策樹中,效度函數F(A,D)的選擇非常重要。決策樹的發展歷史,也基本是圍繞著F(A,D)的優化而展開。

2)kNN算法

只知道每個數據在特徵空間下的特徵向量情況下,可以對數據採用無監督分類方法K-means。如果我們擁有了其中一部分數據的標簽,我們就可以利用這些標簽進行kNN分類。

數據之間的相似性與他們在特徵空間上的距離有關。距離越近越相似,越可能擁有相同的標簽。

假設我們已經有了很多既知道特徵向量也知道具體標簽的數據對於新的只知道特徵向量卻不知道具體標簽的數據,我們可以選取離這個特徵向量最近的k個已經知道標簽的數據,然後選取他們中間最多的元素所屬於的那個標簽,作為新數據的預測標簽。也可以根據他們與新數據的特徵向量之間的距離加權(如最近得5分,第二近得4分等),取權重總和最大的標簽作為預測標簽。

kNN算法不需要構建模型或者訓練,和K-means算法一樣,往往是和某個構建特徵空間的模型一起使用。

此外,還有回歸分類、神經網絡、樸素貝葉斯分類等等。

巨頭們的數據挖掘之路

在當下,數據挖掘也逐漸成為當下的熱門研究領域之一,受到了谷歌、亞馬遜、微軟、百度、阿里、騰訊等科技巨頭的追捧。

1、谷歌

谷歌幾乎每年都會發表一些讓人驚豔的研究工作,包括之前的MapReduce、Word2Vec、BigTable,近期的BERT。數據挖掘是谷歌研究的一個重點領域。

2018年谷歌全球不同研究中心在數據挖掘頂級國際會議KDD上一共發表了7篇文章。

2、亞馬遜

亞馬遜公司近幾年發展勢頭超級猛,前幾年華麗的轉身:從一個網上商店公司變為雲平台公司再轉變到目前的人工智能公司,亞馬遜也在數據挖掘領域開始佔有一席,尤其是在人才網羅、開源、核心技術研發。

2018年亞馬遜在數據挖掘頂級國際會議KDD的Applied Data Science Track(應用數據科學Track)上一共發表了2篇文章,另外還有兩個應用科學的邀請報告。

3、微軟

微軟是老牌論文王國,一直以來都在學術界特別活躍,因此在KDD上每年和微軟有關的論文非常多,因此這裡隻統計了微軟作為第一作者的文章。

2018年在數據挖掘頂級國際會議KDD上一共發表了6篇文章,另外還有一個應用科學的邀請報告,這些文章和報告都更多的從大數據的角度在思考如何更有效,更快速的分析。

4、阿里巴巴

阿里巴巴在電子商務方面做了大量的數據挖掘研究。尤其是在表示學習和增強學習做了幾個很有意思的工作。

2018年阿里巴巴在數據挖掘頂級國際會議KDD上作為第一作者部門一共發表了8篇文章。

5、騰訊

2018年騰訊在數據挖掘頂級國際會議KDD上作為第一作者部門一共發表了2篇文章。

6、百度

2018年百度在數據挖掘頂級國際會議KDD上作為第一作者部門一共發表了2篇文章。

大數據與數據挖掘

大數據是近年隨著互聯網、物聯網、通信網絡以及人類社交網絡快速發展的結果,成為一個交叉研究學科,和數據挖掘緊密相連。

大數據的迅速發展也使得數據挖掘對象變得更為複雜,不僅包括人類社會與物理世界的複雜聯繫,還包括呈現出的高度動態化。這使得很多傳統數據挖掘算法不再適用,傳統數據挖掘算法必須滿足對真實數據和實時數據的處理能力,才能從大量無序數據中獲取真正價值。

一方面大數據包含數據挖掘的各個階段,即數據收集、預處理、特徵選擇、模式挖掘、表示等;另一方面大數據的基礎架構又為數據挖掘提供上層數據處理的硬體設施。

大數據處理平台技術架構圖

從技術架構角度,大數據處理平台可劃分為4個層次:數據采集層、數據存儲層、數據處理層和服務封裝層。

除此之外,大數據處理平台一般還包括數據安全和隱式保護模塊,這一模塊貫穿大數據處理平台的各個層次。

智東西認為,隨著大數據時代的來臨,各行各業所積累的數據呈爆炸式增長,數據挖掘在各個領域的需求將會越來越強烈,與各個專業領域的結合也將會越來越廣泛。無論是在科學領域還是工程領域、理論研究還是現實生活中,數據挖掘都將有著極為廣闊的發展前景。

獲得更多的PTT最新消息
按讚加入粉絲團