黑產套路多，無監督反欺詐算法可以做什麽？

雷鋒網第一次接觸 DataVisor 是在一次三家企業聯合對抗黑產的合作發布會上。

當時，移動互聯網公司 APUS 、主打“可信ID”的安全服務商數字聯盟以及 DataVisor 成立了一個“三家公司的聯盟”，希冀以分享黑產數據的方式來打擊共同的敵人，詳情可見雷鋒網此前發布的的報導《搞垮黑產？三家企業想聯手試試》。DataVisor 是一家反欺詐檢測服務提供商，他們為聯盟提供的是無監督反欺詐算法。

最近，他們又打包發布了一款號稱是自己無監督反欺詐算法“mini”版的新產品 UML Essentials。這家 2013 年在美國矽谷成立、創始人中有兩位專家來自微軟矽谷研究院的公司及其算法有什麽獨特之處？他們對新產品有何部署？

雷鋒網和 DataVisor 中國區總經理吳中聊了聊。

到底是哪些壞人在壞我的好事

作為雷鋒網網絡安全頻道的讀者，想必你對黑產早已不陌生。

某銀行推出了一款金融 App，推廣期爭取了一筆巨額費用，以為撒錢能吸引客戶下載、注冊。萬萬沒想到，90% 的費用全被羊毛黨薅走了。這種案例很常見，就算是知名的電商公司，也經常遇到“魔高一丈”，大額優惠券通通被欺詐團隊刷走轉賣的情況。

有意思的是，現在“抱團圍攻”的現象比較明顯。黑產欺詐人員會先通過虛假注冊、身份盜用等形式獲取大批账號的使用權，然後利用群控軟體或者網絡眾包的形式進行團夥欺詐，他們常用貓池、手機牆、模擬器、刷機等手段和工具躲避傳統黑名單和基於設備規則的檢測。

他們還是分工合理、流水作業的“高度團結”狀態——專門注冊、養號、囤號，潛伏並積攢正常的用戶行為，待時機成熟再發起攻擊。大規模注冊、账號盜取、垃圾內容、虛假評論、薅羊毛、應用安裝欺詐等玩得不要更666。

於是，被盯上的銀行、廠商就想搞清楚一個問題：到底是哪些壞人在壞我的好事？

為了回答這個問題，不少廠商提出了自己的反欺詐方案。

第一代規則系統，需要對欺詐行為有深入了解。

第二代設備指紋黑名單，可能被虛擬機等逃避檢測。

第三代有標簽的機器學習系統，需要大量人工標注數據訓練檢測模型。

“傳統的欺詐檢測方法，如規則引擎、設備指紋、有監督機器學習、半監督機器學習，都有一個共同的局限性，需要在攻擊發生後，根據已知攻擊模式和樣本，檢測未來的攻擊。”吳中提出，這就是他們提出無監督學習系統的初衷之一——在沒有標簽的情況下，提前阻止未知欺詐。

黑產的“套路”VS 算法的“套路”

DataVisor 用這種算法進行反欺詐的依據是，任何欺詐團夥在開展欺詐時都有“套路”。

這個套路可能會不停地變化，但是它想一直搞下去的話，總會有一些套路去控制一堆這樣的套路，去做類似的事情。所以通過這一點，DataVisor 嘗試在沒有標簽的情況下，很快地抓到新型攻擊。

DataVisor 稱，它的無監督學習算法有三個優勢：

自動產生規則，免除費時的人工規則調試。

自動產生標簽，用於機器訓練檢測模型。

有效自動挖掘和檢測各種已知、未知的欺詐行為。

我們來看看，它是如何做到的。

如果我們盯著一個點看，會發現這個點就是那麽平平無奇，沒有特點，如果視野拉遠一些，這個點和周圍的點連接起來，可能能形成一些規律，你會發現，這些點可能組成了一張世界地圖，或者一張有規則的影像。

當然，現實的黑產行為中，可能沒有這麽有“藝術感”和“規則感”的結果。

更多的結果是，我們可能看到的是這樣的行為模式：

吳中和他的同事們會把所有的用戶放在一個圖上全局地分析，研究其中的關聯性，所有的點可能被連接起來，這就是一個聚類的過程。

接下來，他們需要分析的是，那些點和聚類是代表好的行為，哪些則是有異常的，自動形成標簽。

“一個犯罪團夥控制一堆帳號去做的話，它的行為與正常用戶的行為不一樣，沒有一個個獨立的例子，都是按照某一個套路做，這種套路可能通過機器腳本、動包、群控等攻略的方式實現，我們再看每個帳號的行為，就會發現它們會有很高的不正常的相似與具體性，通過這種判斷和數據統計，就可以把好壞斟酌出來。”吳中說。

這種判斷不需要人工乾預，機器判斷派上了用場。它的原則是，機器會一直跟進這種行為和數據的變化，判斷其是不是一直是正常的。

這些點又是怎麽來的？

DataVisor 會提取動態用戶脫敏後的數據特徵。一是用戶的行為特徵，比如用戶做一些事件的順序、頻率、時間點。二是設備相關，比如用戶在做一些事情時，與其相關的 IP地址，設備模型的相對分布。三是用戶的靜態畫面背景，比如昵稱等公開的資訊。

這些自動生成的標簽準確度和精細度又能達到哪種程度？

這和不同客戶的需求及隨後的措施相關。比如，一些社交網站的注冊要求根據這個結果進行帳號的封停，那麽準確率就要求達到 99%以上。如果只是依據一個或者幾個標簽來進行風險提示，那麽準確率可能只要達到95%，以求達到更大的用戶覆蓋率。

吳中透露，這些數據多數來源於客戶自己平台的數據，但這是一個可選的選項，如果還需要提升判斷模型的效果，可以借助其他的數據。“這些人想要進行大規模攻擊，就會有一些隱形的套路，我們的算法會自動發現這樣的情況，不需要事先知道到底是哪一種套路。”他說。

但是，道高一尺，魔高一丈。如果吳中等人可以根據記錄數據的變化，實現“跟隨式”發現，黑產難道不能實時抹掉自己的蹤跡？

事實上，現在也有很多刷機裝備可以做到一秒“清零”，但有些設備只能抹掉中間一部分痕跡，黑產很難從每一個維度、管道進行有利於自己的操作，如果真的能做到，這樣會極大增加對方的成本，高到它做這個生意已經沒有什麽錢賺。

因此，這又回到了對抗的本質——沒有什麽最終的勝利，安全對抗永遠只能最大限度地提高對方的成本，讓對方要麽放棄，要麽尋找其他降低成本的方式。

不過，這種“早期預警”到底能提前多久？

吳中解釋：“利用傳統方式感知這個東西，一般得在這個平台上發展到一定程度，再收集一些樣本訓練，上線要測試，一般要一兩個月才能上線，如果可以自動發現這個問題，在社交和電商互聯網場景中，可能只要幾十個帳號數就可以發現規律，金融場景下，這種數量更少，一般只需要 10 個以下，因為在這個場景裡，每做成一單收益會比較大。以一個客戶交易平台的服務為例，我們可以把發現欺詐的時間提前 48 小時。”

“mini”版算法看中的是哪塊市場

本月 27 日， DataVisor 發布了 DataVisor UML Essentials。

吳中告訴雷鋒網，他們此次推出mini版產品的目的，實際是為了把自己在安全領域裡面幾個承諾的場景，比如大規模注冊、用戶獲取，以及反洗錢領域的積累轉化成一個SaaS 服務，降低企業在使用反欺詐服務的門檻。

第一個特點是，DataVisor 會在產品的初期聚焦於大規模注冊場景，注冊幾乎是所有互聯網服務的一個入口，他們會把這個場景做深、做細。在產品發展中後期再引入更多的場景，讓中小企業根據自己業務的發展選取更多的服務。

我們來劃下重點，針對的是中小企業。

第二個特點，讓用戶自主服務，因為這是一個 SaaS 服務，昝瀟希望，在使用欺詐服務的流程中，用戶自己參與、把控，減少用戶切入的時間。雷鋒網認為，從廠商角度看，這也意味著降低提供商的服務成本。

第三個特點， UML Essentials 是開放性的，模型會自動調優，降低人工服務耗費的時間。

第四個特點，支撐DataVisor UML Essentials的數據處理平台構建於主流雲計算基礎設施之上，支持AWS、阿里雲等平台的架構。

“中國很多中小企業正在發展，它們本身的技術能力還沒有那麽成熟，也想用這些比較好的 AI 或者是技術，但是價格上又不能太高，如果要接入相關產品，自己的團隊又沒有能力同時做很多事情，也很難接受很長周期根據每個業務細粒度地做長期的接入和調優，所以我們降低了應用門檻。”吳中道出了這項產品的主打閱聽人以及最初的目的。