無需標注，這個AI能在大量數據中一眼識別欺詐攻擊

“人工智能，有多少人工就有多少智能”，這是伴隨人工智能發展的一句老話了，近來格外引人關注。

一周前，微信公眾號“GQ報導”的一篇記述文“通往未來之路 |那些給人工智能打工的人”在朋友圈火了。文章揭示出，在AI企業估值屢屢超過幾十億的時候，背後是中國七八線小縣城裡無數猶如“富士康”一樣的AI數據標注公司。這些公司裡的人與高大上的AI沒有一丁點兒關係，無從接觸也無從理解AI，他們大多是初中高中文憑，每天對著電腦進行著機械而重複的標注工作，比如，在一張圖片裡把“梯子”、“茶几”、“地毯”、“沙發”都圈出來。通過他們打上的成千上萬的標簽，AI公司能夠讓它們的AI系統在看見這些物體時，直接識別出來。

目前，廣泛應用在AI影像識別、語音識別中的有監督機器學習需要大量的標注數據支持，深度學習為機器學習帶來巨大進步，卻也需要更多、更完善的標注數據，才能達到好的訓練結果。人們發展AI的願景一直是希望AI能將人們從大量的重複性和機械性工作中解放出來，而目前AI卻還依賴著“AI數據標注”這樣的重複性人類勞動，成為不少人詬病AI的一點。

但是據雷鋒網了解，並不是所有AI應用領域都能提供大量標注數據，且標注數據在不同領域也不是都一樣好使。比如，在安全領域的反欺詐中，不需要依靠標記數據的無監督機器學習技術在很多時候都比有監督機器學習表現更好。

反欺詐領域中的無監督機器學習

DataVisor創始人兼CEO謝映蓮告訴雷鋒網，安全領域的反欺詐不滿足有監督的機器學習和深度學習需要大量的標注數據這個前提。欺詐者通常處在活躍變化的狀態下，他們使用的欺詐手段變化十分迅速，而且他們為了確保自己不被反欺詐技術檢測到，在發起大規模攻擊之前都會先進行測試。

欺詐的手段日新月異，很難拿到完善的標簽數據；而且在你拿到任何標簽之前，其實意味著損失已經產生了；等根據標簽數據訓練好模型，欺詐者或許已經拋棄了這套方法。這三點問題製約著傳統的欺詐檢測以及新興的有監督機器學習方法。

傳統的欺詐檢測方法，如規則引擎、設備指紋以及有監督機器學習、半監督機器學習，都有一個共同的局限性，需要在攻擊發生後，根據已知攻擊模式和樣本，檢測未來的攻擊。無監督學習系統則可以在沒有標簽的情況下，提前阻止未知欺詐。

有監督機器學習和深度學習十分火熱，不過，從反欺詐這個領域來看，我們發現不是所有的AI技術在所有的場景下起到同樣的作用。那麽，我們如何將合適的技術與場景相結合，真正去解決行業中的痛點問題呢？

DataVisor的系統包括四個重要組成部分：無監督機器學習引擎、有監督機器學習、自動規則引擎和全球智能信譽庫。無監督機器學習引擎可同時分析數十億账戶與事件，無需標簽和訓練數據即可自動發掘惡意账戶間的可疑關聯和相似度，並即刻檢測捕獲整個欺詐團夥；有監督機器學習引擎可以利用無監督學習引擎生成的數據做訓練集，不斷訓練出有效的學習模型來彌補並增強規則引擎無法覆蓋的複雜欺詐行為；自動規則引擎將機器學習模型的能力與規則引擎的可解釋性進行結合，並及時更新與淘汰現有規則；而全球智能信譽庫利用深度學習實時計算，並為客戶提供行業各類智能信譽和數字指紋，如IP地址、地址位置、電子郵件網絡域名、移動設備類型、作業系統等。

基於以上幾種技術，DataVisor開發了用戶分析平台。由於該平台本身就具有通用和可延展性，所以能夠與不同的數據、不同的使用場景掛鉤對接，也就出現了八大應用場景。

無監督機器學習落地不同場景

謝映蓮畢業於卡內基梅隆大學電腦系並取得博士學位，有超過十年的安全領域行業經驗，一直致力於打擊大規模網絡線上攻擊，此前任職微軟矽谷研究院。2013年謝映蓮在美國創辦DataVisor，當時機器學習方興未艾，還不像現在這樣火爆。

2013年，是企業全面轉型互聯網的時代，反欺詐領域也面臨著全新的機遇：反欺詐的場景從分散的線下場景轉變為高度整合的線上場景。此前，在金融領域，辦理信用卡需要去銀行專櫃，辦理保險也需要聯繫特定的代理人員，而現在，辦卡、借貸、買保險都可以在線上進行，且都可以關聯到個人的社交账號，數據互通。另一個趨勢是，現在一些公司越來越多地跨界，例如互聯網公司開始涉足金融、保險、信貸等領域。

線上反欺詐成為一個新興的龐大市場，有著全新的機遇，且這個領域還沒有誕生出大玩家。

反欺詐行業不斷融合，領域不斷擴大，反欺詐的技術需要具備很強的通用性，而這正是無監督機器學習的另一優點。有監督的機器學習幾乎是需要一個場景就要一個模型，甚至需要一份數據就要一份模型，而無監督的算法有它的自動發覺性，它可以自動地去尋找未知的場景，在模型的調優方面，它對數據多變性的容忍度更高。

雖然目前DataVisor只是專注於反欺詐這一個領域，但是在成立之初，謝映蓮就看到了無監督機器學習在其他領域的可能性，DataVisor可以成長為平台型公司。

目前，DataVisor的服務對象主要有三種，社區和交易平台；銀行和互聯網金融機構；以及遊戲、工具類應用。

在社交應用中，欺詐團隊通常會大規模盜號，冒充用戶進行欺詐；

在電商應用中，惡意的虛假評論會給商家帶來嚴重的損失，薅羊毛黨仿冒大量新注冊用戶將平台優惠都圈走，會造成大量資金損失；

在金融領域，虛假账戶、盜刷、套現、洗錢各種欺詐手法層出不窮。

在美國，DataVisor的用戶包括遊戲公司IGG、美食點評網站Yelp、圖片社交軟體Pinterest；而在中國，則有京東、大眾點評、餓了麽、陌陌、Blued等，共同利用先進的機器學習技術抵禦多維度線上攻擊欺詐，如大規模虛假注冊、虛假申請、垃圾內容、薅羊毛、虛假安裝等，幫助其保護平台用戶安全，提升平台用戶體驗，提高用戶滿意度和留存率。

謝映蓮告訴雷鋒網，無監督機器學習還有很多的潛在應用場景有待開拓，例如將其應用在基於用戶的興趣分析用戶的轉化率，用戶流失的原因等。

小結

在雷鋒網看來，相較於影像識別、語音識別、零售、醫療等領域，安全領域較早地積累起數據，也較早地將機器學習應用到實踐，為無監督機器學習技術提供了很好的數據基礎。很多行業目前還處在前期的數據收集的過程，也依賴於大量的數據標注。另外，安全領域是一個高速變化的行業，需要無監督機器學習來快速識別新型欺詐攻擊。

AI的願景一直是希望AI能將人們從大量的重複性和機械性工作中解放出來，在這一方面，無需標注數據的無監督機器學習將是未來趨勢。當然，谷歌的AutoML也在致力於使得AI更加自主化、平民化，不過他們解決的是模型設計部分。無監督機器學習在數據清洗、模型優化方面也仍然需要行業背景和資深的AI從業者參與。理解用戶場景和需求，進行數據清洗、模型設計和調優，正是DataVisor的壁壘和優勢所在。

無監督機器學習有著很強的通用性，在未來，我們或許能看到無監督機器學習技術在更多領域落地。