人工智能領域有哪些可參考新實踐？

上周又有人工智能公司被爆用人工假裝智能，但業界不乏有好的實踐值得參考，尤其是圖像視頻，自然語言處理，搜索推薦等領域，AI 已經不僅僅限於概念，而是切實地在各種實際應用中落地並促進了應用的極大發展。在大數據方面也越來越多應用機器學習技術。這裡推薦幾個互聯網公司在以上多個 AI 領域的具體應用實踐，涉及到多個領域的應用場景，方案選型，實際效果等各種經驗總結。

高性能網絡通信框架釋放 AI 算力的實踐

相比於 MapReduce 等傳統數據處理做法，大規模分布式 AI 場景下的網絡通信面臨著不一樣的挑戰。對於處理大規模離散特徵的算法，如邏輯回歸（LR），消息吞吐量將直接影響到整個訓練任務的性能。對於處理稠密特徵的深度學習算法或者是樹模型（GBDT），網絡延遲很容易成為性能瓶頸。不同的 AI 算法面臨不一樣的性能瓶頸，第四範式設計了自己的 RPC 框架——PRPC，以求能在多變的 AI 場景下，都能實現優秀的性能。通過 Zerocopy 和自研事件調度系統降低通信延遲；通過 RDMA 技術優化機器學習離線訓練和線上預估。PRPC 的定位是盡可能的適應不同的機器學習的場景，最大化分布式計算的性能，所以我們讓他與應用層進行了適當的耦合，從而使的整個過程都是 Zerocopy 的，同時上層算法也盡可能進行原地計算，使的整個機器學習任務的性能達到極致。對於 LR 算法和 GBDT 算法，RDMA 模式下的 PRPC 有數倍性能提升。與 ZMQ，BPRC 和 GRPC 對比 PRPC 在大部分機器學習場景下有較大性能優勢。

你將收獲

了解大規模分布式機器學習場景下不同算法的性能瓶頸和解決思路；

高性能組件 RDMA 在大規模分布式機器學習場景下的應用和網絡性能優化經驗；

RPC 的接口設計以及 Linux 事件調度的優化。

人工智能在手淘消息推送平台中的實踐和應用

作為國內最大的電商交易平台，手機淘寶每天都會發生海量的用戶行為和交易動作。我們希望能夠充分利用這些數據和合適的算法，來更加智能的進行主動內容推送和行銷。應用內的推薦會偏向於處理用戶來訪所引發的推薦需求，而我們要做的更多是一種主動推薦，目標是通過將用戶狀態、觸發內容和觸發時機進行統一的建模，來主動的進行消息和關鍵內容推送，讓用戶不要錯過真正有用的事件和信息。

你將收獲

手淘消息 Push 平台介紹，以及對於用戶增長的幫助和定位；

強化學習和個性化情景計算如何有效解決消息推送時機、內容選擇、打擾度控制、場景選擇等難題；

如何結合業務目標設定有效和科學的長期收益目標，並且通過算法建模和優化長期收益。

大數據在趣頭條的演進：Kafka 讀寫分離、Hadoop 治理、機器學習平台

趣頭條在 2018-2019 年經歷了業務的高速發展，主 App 和其他創新 App 的日活增加了 10 倍以上。相應的，大數據系統和平台也從最初的 100 台機器，增加到 2000 台以上，技術棧從單一的離線數據報表，發展到離線 + 實時 + 機器學習的完整系統。這個分享將從 3 個主要方面，闡述大數據系統的演進路線，和經驗分享。

Kafka 讀寫分離背景：各業務部門數據消費方式的差異，經常導致 Kafka 集群節點的不穩定。解決方案：讀寫分離，第一層集群隻負責接收數據，第二層集群按部門隔離，用 Flink 把數據從第一層集群同步到第二層。第一層集群前面還有個 Proxy 負責統一接收數據。這個方案參考了 Netflix 的設計。

Hadoop 治理背景：集群從 100 台增加到 1500 台，很多歷史遺留問題，例如用戶和權限管理的缺失，缺少 Federation 對於各部門的隔離，小文件，低價值數據的歸檔和刪除，計算隊列的利用率，阿里雲 EMR 無法完全滿足定製化的需求，客戶機的管理混亂，等等。解決方案：自研 Hadoop 集群管理平台，基於 CDH 的源碼二次開發，多 Federation + HA，按部門的存儲和小文件上限管理，數據生命周期管理，元數據與數據全鏈路監控，用戶權限管理。

機器學習平台背景：公司算法部門有多套訓練平台，缺乏統一的資源管理，調度平台，特徵倉庫，等等。解決方案：所有訓練集群統一到 K8S 管理（包括 CPU 和 GPU 資源），用 KubeFlow 管理任務調度，自研 K8S 任務調度模塊提高集群資源利用率，開發特徵管理倉庫，開發模型管理倉庫，用 K8S 管理線上預測服務，等等。

你將收獲

熟悉阿里雲大數據平台，和其他公有雲方案的差異，和應用場景；

大數據系統快速增長過程中，如何保障穩定性，如何做技術選型；

如何從 0 到 1，構建大規模數據系統平台；

機器學習平台的構建，發揮 K8S 的作用，如何跟數據系統集成。

基於 Ray 引擎的在線機器學習

伴隨著大數據時代的來臨，越來越多的業務場景開始依賴機器學習進行商業上的升級。同時隨著計算及 AI 體系的逐步成熟，以及業務對於機器學習的越發依賴，分布式機器學習從傳統的離線學習逐漸開始向在線學習演進。相比於傳統的離線機器學習，在線學習可以帶來更快的模型迭代速度，讓模型預測效果更貼真實情況，對於線上的波動更加敏感，因此，一套好的在線學習架構就格外重要。

在最近兩年，國內的各個一線互聯網廠商分別推出自己的在線學習技術體系及相關架構，螞蟻金服從 2018 年 7 月開始，在基於最新的 Ray 分布式引擎之上，自研了金融級的在線學習系統，與傳統在線學習框架相比，在端到端延遲，穩定性，研發效率等方面都有不同程度的提高。希望可以通過本次介紹，讓大家對於螞蟻金服的在線計算體系有所了解。

你將收獲

基於 Ray 的金融級的在線學習系統怎麽做；

與傳統在線學習框架相比的優勢；

螞蟻金服的在線計算體系。