每日最新頭條.有趣資訊

解構英特爾AI內功,為金融業獻四大落地寶典

智東西(公眾號:zhidxcom)

文 | 心緣

智能金融江湖百家爭鳴,多數玩家背後卻有同一個後盾——英特爾至強平台。

很多傳統企業在將人工智能(AI)部署到自身業務時,往往面臨如何將AI與現有高性能計算工作負載有效兼容的難題。另起爐灶成本太高,從零翻新基礎設施顯然也不現實,而增強了深度學習能力的英特爾至強可擴展處理器,專為在現有工作負載硬體上運行複雜AI任務的需求而生。

短短幾年間,英特爾已經潛移默化地服務了大半個AI金融圈。

這得益於英特爾CPU在計算基礎設施領域的根深蒂固、在AI領域的早早布局、在智慧金融實例的長期摸索,形成一套獨具一格的“AI+金融”落地寶典。

如今,英特爾將這些經驗和智慧,以及典型的服務案例,都融入一本白皮書《英特爾中國金融行業AI實戰手冊》中,供金融從業者及AI開發者參考。

一、智能化正滲透到金融業各環節

智慧金融快速成長,並不令人意外。

金融行業有幾大特點:信息化起步早、數據積累豐富、數據標準化程度高、機械化工作方式佔比高,這些與擅長海量數據快速處理的AI天然契合。

金融界各種風險屢增,再加上金融普惠化和場景化創新成為必然,亟需對新技術的應用。

比如,最讓金融界頭疼的“欺詐”問題,在過去幾年伴隨科技的進步,新招數花樣百出,信用卡逾期凍結、死亡騙保、短信驗證碼套現的場景屢見不鮮,不僅坑了眾多民眾,也將金融秩序攪成一灘渾水。

就在上周三,重慶警方赴柬押解回國的150名涉嫌電信網絡詐騙犯罪嫌疑人,涉及全國100余起案件,涉案金額近億元。

再比如逐漸增加的不良貸款,不僅侵蝕銀行利潤,佔用寶貴信貸額度,還致使優質項目無法及時獲得信貸支持,更有甚者引發企業連鎖倒閉破產,造成社會危機。

而此時,AI浪潮襲來,為海量數據實時處理問題、經驗主義瓶頸、機械性工序耗費人力等問題提供有效的解決方向。

AI與金融的跨界融合似乎已是大勢所趨,很多金融機構或自己組建研發團隊,或與有AI基因的公司合作,幾乎能將AI元素融入從前端到後端的數據分析、風險預測、智能客服等金融業務全流程。

金融行業AI場景

在前端,計算機視覺、語音識別、自然語言處理等感知類技術盤踞,常見的應用有身份驗證、客服機器人等。

在中台,AI主要用於提高信息分析決策效率,比如多元化分析評估客戶行為、提升個性化服務、降低欺詐風險等。

在後端,大量高度重複性工作被機器取代,在效率、準確性和安全性上均較原有人工方案明顯提升。

二、金融需要什麽樣的AI方案?

智慧金融出現之前,互聯網金融還是金融行業的重頭戲。

彼時面對極速增長的數據,挑戰不斷出現:

比如,數據資料是靜態的,無法得知實時發生的數據情況,動態數據模式顯然已成為金融機構提高競爭力的必競之處。另外,數據造假門檻和成本都越來越低,但數據真實性鑒別成本卻逐漸上漲。

深度學習可以將大量非結構化數據轉化為有價值的智能,對風險預測、實時分析、自動交易、防欺詐等增加效益。

當前反欺詐模型常見AI算法

不過,深度學習也有其應用瓶頸,在一些特定情況,比如較小的數據集、成本受限,可解釋性強的傳統機器學習方法通常會被比深度學習有更好的表現。

另外企業引入AI能力時,通常不僅要考慮高性能,還要考慮成本問題。深度網絡對算力的要求,往往使之需耗費昂貴的硬體成本,而有些計算任務,傳統機器學習算法完全可以勝任,不僅能以更快的速度完成迭代,而且大大降低計算成本。

現在學術界、工業界都在推崇深度學習+機器學習的混合方式,而CPU平台非常適合作為這一方式的算力基礎。無論是深度學習還是機器學習,英特爾均對其做了相應的改造,使之能勝任更高效的推理性能。

回到成本問題上,多數金融機構不願意走完全自研之路。這主要是因為投入成本大、時間周期長,從上層AI應用到底層基礎設施,整一套智慧化升級流程下來,試錯成本高。

在這一背景下,英特爾開始為國內外的AI金融發展起到重要的助推作用,幫助金融企業在既有IT基礎設施的基礎上,更快、更靈活、更低風險的增加AI能力。

三、加速AI落地金融,英特爾推軟硬體“大禮包”

入局AI+金融,英特爾有天然的優勢。

在AI推理市場,英特爾至強處理器的普及率非常高,為80%-90%的AI推理助力。

在此基礎上,英特爾第二代至強可擴展處理器已經問世,將性能比前代產品提升25%-35%,且特意針對AI應用做了優化,內置矢量神經網絡指令(VNNI),擴展了英特爾AVX-512,優化其AI推理能力。

圍繞至強,英特爾推出一系列先進的記憶體、存儲、網絡和安全等技術及產品,進一步加固數據處理優勢。

其中,傲騰數據中心級持久記憶體當屬英特爾革命性的產品,通過創建新的存儲層,填補記憶體-存儲架構間的空白,它能部分替代記憶體,同時比記憶體更高性價比,並針對第二代至強可擴展處理器做了優化。

同樣,英特爾傲騰固態盤也為消除數據中心存儲瓶頸而生,採用創新3D XPoint存儲介質,從而加快應用速度,降低延遲敏感型工作負載的事務處理成本,有效改善數據中心總擁有成本。

除了硬體平台,英特爾也打造了一套與硬體適配的AI框架、庫和工具集,既能最大程度挖掘硬體算力,又能降低用戶使用門檻。

英特爾面向TensorFlow、MXNet、PyTorch、Caffe等主流深度學習框架做了優化,設計了MKL-DNN性能增強庫,以提升這些框架在英特爾架構基礎設施上的運行速度。

目前,MKL-DNN已成為眾多深度學習框架在CPU上的基本配置。

另外,考慮到很多用戶需要兼顧大數據分析和AI處理,英特爾將二者無縫集成到一個統一的平台Analytics Zoo中,該平台基於英特爾至強處理器平台,並融合了MKL-DNN等多種軟體庫,可大幅提升訓練和推理速度。

這樣一來,開發者無需移動數據,節省了硬體管理和學習新語言的時間,在提高部署效率和可擴展性、降低總擁有成本的同時,還不會影響計算效率與性能。

針對邊緣側的視覺處理提速,英特爾還特意推出OpenVINO工具套件,通過英特爾AVX-512以及採用VNNI的英特爾深度學習加速技術,在英特爾架構平台上,將計算機視覺相關深度學習性能提升19倍以上。

OpenVINO基於通用API接口在CPU、GPU、FPGA、VPU等各種硬體設備上均可運行。借助這一工具套件,開發者無需改變軟體,即可快速完成硬體升級和算法移植,

紙上得來終覺淺,英特爾還有一大優勢,即是在過去幾年和金融客戶的合作實踐中,積累了大量AI部署的經驗,能為AI基礎設施硬體和技術套件的規劃提供針對性的方案,如中國銀聯、中國人壽、中國平安等都是英特爾的生態夥伴。

四、對症下藥,破解金融風險危機

經過和金融客戶的廣泛合作,英特爾從對金融行業痛點的了解逐漸深入,針對常見的反欺詐和信貸逾期兩類問題,研究出一些經過驗證的有效解法。

1、金融反欺詐:三層融合的”三明治”模型

面對“欺詐”這片難以打擊的黑灰產,金融產業也不得不拿起新的武器——金融反欺詐應用模型,和各種風險行為鬥智鬥勇。

中國銀聯是國內唯一一個成功連接全國各地不同銀行自動取款機的銀行網絡,每年要處理200億單支付業務,其中支付渠道正趨於多樣化,也帶來更大的風控壓力。

中國銀聯電子支付研究院智能分析服務平台架構圖

在模型設計上,英特爾發現三個“頑疾”:學習用戶行為的算法應用時間不足、用戶行為交易數據不足、正常和非正常交易數據不平衡。

傳統反欺詐模型都是基於規則算法,需定期耗費大量資源總結交易業務和更新規則,造成資源消耗和增加時延。

深度學習模型的優勢是能對規則自我學習,但單一深度學習模型不擅長單筆交易內的特徵學習。

針對這一問題,中國銀聯和英特爾的思路是融合學習,他們提出創新的“三明治”多層反欺詐偵測模型“GBDT->GRU->RF”模型。

GBDT->GRU->RF三明治結構反欺詐模型

循環神經網絡GRU模型,是反欺詐AI應用中常用的方案,新的三層方案並沒有直接使用GRU進行欺詐判別,而是將其作為模型的中間層,前端通過英特爾Analytics Zoo工具,引入GBDT模型進行特徵優化,後端疊加隨機森林模型。

新風控系統在短短數月就達到最佳訓練模式,相比基於規則的風控系統,新系統涵蓋率高達60%,精確率實現20%。

GBDT->GRU->RF三明治結構反欺詐模型評估效果

數據非平衡性同樣是反欺詐應用常見問題,英特爾也提供相應建議,如在采樣和訓練期間,可基於對數據量大的正常樣本正常采樣、提高欺詐樣本權重、隨機打亂次序多次訓練欺詐樣本的策略。

此外,在實踐過程中,英特爾發現算法準確度會受不同方法組合的次序的影響。經測試,在2個特徵內提前特徵性的方法間,加入特徵間提取特性的方法,準確率最高。三明治結構還使用旁路加強特徵重用。

銀聯的訓練集群全部採用了英特爾至強處理器平台,上述整套風控系統均基於英特爾Apache Spark計算集群和BigDL深度學習平台,由英特爾設計架構和提供數據建模、參數調優等支持,中國銀聯已將該系統進行封裝和整合,並以API接口形式提供智能分析解決方案。

2、信貸逾期風險:LSTM+傳統機器學習模型

除了反欺詐,信貸逾期風險同樣是長期困擾金融界的症候,信貸風險管控已成為銀行風控系統的重要內容。

信貸風險預測主要由兩類應用場景,預測方案存在人工投入大、周期長、質量良莠不齊、受多種因素影響的問題,給銀行帶來成本和管理壓力。

目前業界常用機器學習或深度學習的方法來構建預測模型,用NLP方法研究和預測環境數據,英特爾在和金融用戶的合作探索中,選擇構建基於LSTM和傳統機器學習的混合模型。

模型融合的整體結構

其中,機器學習模型XGBoost是已經被廣泛運用到信貸逾期風險預測方案中。該模型由大量分類回歸樹集合成的強分類器,相比GBDT等機器學習方法,它有4個特點:

1、支持並行計算,可充分利用處理器的多線程能力;

2、XGBoost在其代價函數中引入正則化,可有效控制模型的複雜度,防止過擬合;

3、支持列抽樣方式,可有效防止過擬合、降低計算複雜度;

4、對代價函數進行二階泰勒展開,預測效果更強。

LSTM是循環神經網絡重要的衍生模型,基於LSTM的深度學習方法可大幅提升時序分析工作的效率,但缺乏可解釋性;基於樹的傳統機器學習方法是信貸逾期風險與此模型常用的技術,預測結果具備較高可解釋性。兩者訓練結果進行加權融合,準確性和可解釋性均提高。

貸款逾期風險混合預測模型軟體棧

這一方案已在某銀行用戶處實踐部署,數據顯示,新方法比人工預測方案準確性提升2倍,預測時延縮短到2天,在線預測方案的每筆預測時間小於1秒。雙方還計劃進一步探索用NLP方法研究和預測環境數據。

五、提高業務水準,精準行銷和影像分析新解法

除了幫助金融用戶構建降低常見風險的模型,英特爾也幫助多家金融企業用英特爾開源“大數據分析 +AI” 平台Analytics Zoo中的各種AI模型,優化自身業務流程,通過更精準的用戶行為分析,優化服務質量。

1、精準行銷:NCF+WAD模型

精準行銷和個性化行銷正成為許多行業提高服務質量的重要應用。基於金融行業較高信息化水準和數據優勢,AI在金融精準行銷中的策略日益受到更多關注。

推薦模型一般分三類:協同過濾、基於內容和混合系統。協同過濾依賴顯性反饋和隱形反饋,基於內容的系統依賴大量特徵值訓練且會重複推薦,越來越多人開始研究基於深度學習的推薦模型。

NCF模型是目前最常用的深度學習推薦算法之一,將GMF結構+多層神經網絡融合,獲得更好的推薦效果。

神經協同過濾(NCF)模型的示例

另外還有一種寬深學習模型,通過將深度神經網絡和線性算法模型混合,創建效率更高的推薦系統。

這兩種模型先通過英特爾Analytics Zoo可以輕鬆構建。比如中國人壽上海數據中心在做險種推薦主要採用了NCF模型,經評估,其推薦系統的命中率達99.8%,超過預期數值;萬事達優化推薦服務時用了NCF和WAD模型,從驗證結果來看,精準度和召回率均相比ALS模型有明顯提升。

萬事達深度學習模型比ALS模型的改進結果

2、影像分析:2D ResNet+3D V-Net方案

車險、健康險等保險各個險種都對影像分析有巨大需求,其中健康險技術難度非常高,需要保險公司的工作人員具備專業病理知識和實踐經驗,能準確評估被保險人疾病情況,AI真誠為有效的醫學影像判讀輔助手段。

ResNet是當前應用最廣泛的CNN特徵提取網絡,也是2D計算機視覺任務的主流神經網絡之一。另外還有一種叫V-Net的完全CNN被用於處理3D影像數據。

面向英特爾架構優化的Caffe就為RESNET50網絡提供了優化版本,而且加入層融合技術,並支持INT8精度推理,從而實現更大幅度的性能提升。

面向英特爾架構優化的Caffe在至強可擴展處理器

中國平安就利用ResNet+V-Net方案,以及面向英特爾架構優化的Caffe等框架,在2018年初的肺結節分析(LUNA)評測中,以95.1%和96.8%的精度,刷新了“肺結節檢測”和“假陽性篩查”的世界紀錄。

包括ResNet和V-Net在內,英特爾推出的工具套件在人臉檢測、比對、活檢等各模塊都有預訓練好的算法模型,可以拿來即用,而且模型效果都經過很多實踐驗證。

結語:加速智慧金融需簡化AI升級流程

在數據驅動下的智能化浪潮中,英特爾正以至強CPU為核心技術支柱,不斷細化和填補軟硬體技術和產品布局,並在長期與金融客戶的合作中,積累了大量的實踐經驗。

經由合作夥伴的助力,英特爾正在著力將其技術盡可能大程度地轉化成智慧金融落地經驗,打磨出具有針對性和借鑒價值的行業參考方案,推進金融業的AI實踐與創新生態的構建。

目前,AI在金融業的應用還處於初級階段。

銀行、證券、保險等各類金融業都在積極引入AI,把控風險、降低人力成本並洞察用戶需求,將AI技術理論轉化為實際經濟價值,提升服務競爭力。

但與此同時,這些傳統金融企業也面臨著融合AI能力、升級原有IT基礎設施的壁壘,要加快金融業智能化建設,像英特爾這樣能提供簡化AI升級流程的企業正扮演著至關重要的角色。

獲得更多的PTT最新消息
按讚加入粉絲團