一線|數據隱私保護下，AI大數據的發展該何去何從？

騰訊新聞《一線》作者潘琅

2020年5月25日，全國人大常委會工作報告在“下一步主要工作安排”中指出，圍繞國家安全和社會治理，制定生物安全法、個人信息保護法、數據安全法。消息一出，迅速“登頂”兩會熱搜榜——人們期盼已久的《個人信息保護法》，終於在經歷了從醞釀到問世的8年歷程後“千呼萬喚始出來”。

同時這也引申出了一個問題，我們的個人隱私是從什麽時候開始了“裸奔”？

如若從時間軸上去追溯這個問題的答案，那麽似乎當人類從農業社會逐漸邁入城市商業社會，從熟人社區轉向陌生人社區的時候，人類被隱私問題所困擾的歷史便開始了。特別是在以大數據應用為重要特徵的後互聯網時代，日漸興起的大數據、雲計算、物聯網、人工智能、5G等新一代信息技術，更使得個人數據信息、乃至生物識別信息無所遁形，哪怕細微到我們在網絡上的每一次搜索、聽的每一首歌、叫的每一次外賣、去的每個地方、乘坐的每一次交通工具，都可以被企業獲取，成為其數據汪洋中的點滴，在深度數據分析後轉而商用。

這一切正如英國雜誌《經濟學人》十年前預言的那樣，“數據是新時代的石油”。大數據時代，每一個人的隱私都在陽光下“裸奔”，信息一拋頭露面，就先被互聯網巨頭收割。並且伴隨著人工智能的不斷發展，個人隱私和數據可以被更加便利地公開、搜集、聚合、分析和使用，規模之大超出了想象，以至於至今我們仍無法判斷這個過程對人類社會的進程究竟產生了多大的影響。

大數據時代，隱私還能保護嗎

“不積小流,無以成江海”大多數時候，當數據具備了相當規模的量，足夠廣闊的覆蓋面和足夠精準的數據源，數據就會有足夠的價值。如若從商業角度出發，企業為用戶提供便捷、廉價的服務，用戶則在享受服務的同時，“順便”貢獻出自己的數據，雙方其實是各取所需、兩得其所。

這樣看似乎是一個完美的邏輯。但問題是，大數據時代，公民隱私的數字化加劇了隱私的無形化。“看不見、摸不著”，信息的存儲方式、速度、表現形式都發生了翻天覆地的變化，隱私在不經意之間即被侵犯，並且互聯網強大的記憶和存儲功能讓一切在線行為被永久記錄。網絡空間的可搜索性和永久存儲性，有可能加重精神損害和名譽損害的後果。

與此同時，我們不得不思考依托AI等科技手段收集來的數據，能像傳統的商業問卷調查一樣，最大程度淡化、保護用戶個人信息嗎？大數據時代，人們該如何為自己的隱私上一把“安全鎖”？如何確定企業搜集信息樣本的過程中不會精準定位到個人？

《道德經》有雲“反者，道之動”。儘管大數據時代的數據安全和隱私洩露問題無處不在，儘管法學與技術仍面臨著諸多挑戰，我們也不能因噎廢食，因為不可否認的是大數據技術其實是人類科學發展的必然成果。於是圍繞著這類“魚和熊掌不可兼得”的問題，很多人展開了各自的探索。根據探索的方向，這些努力大致上可以分為兩類：法學的探索與科學的探索。

在法學家們看來，當前數據的搜集和使用過程中之所以會出現種種問題，其關鍵就在於各種相關的法律和規範滯後了，不能適應時代發展的需要。針對這一問題，法學領域幾年來一直都在積極推進立法，努力彌補法律和制度上的各項不足和漏洞。2020年5月25日，我國全國人大常委會工作報告在“下一步主要工作安排”中明確指出了即將頒布《個人隱私保護法》。

與法學探索同步的是技術的探索。從技術角度上來看，數據應用中存在的各種問題本質上都是技術的局限問題，一旦技術進步問題就會迎刃而解。到目前為止，技術人員已經沿著這一方向進行了包括安全多方計算、區塊鏈在內的眾多新技術的探索嘗試。而最近興起的“聯邦學習”技術，就是這些新技術中最令人眼前一亮的一種。

聯邦學習的崛起，破解數據信任難題

毫無疑問，AI技術是人類最偉大的科學成就之一。人工智能改變了人類社會，但如今AI技術在實際應用落地的過程中也面臨著兩大瓶頸：一方面，多數企業擁有的“小數據”難以聚沙成塔、取長補短；另一方面，對數據隱私與安全的日益重視早已成為世界性趨勢。而“聯邦學習”作為加密的分布式機器學習範式，可以使得各方在不披露原始數據的情況下達到共建模型的目的，為應對AI落地困境提供了更多可能性。

2018年伊始，微眾銀行首席人工智能官楊強教授就帶領人工智能團隊推動構建聯邦學習生態，並且在2018年底向IEEE提交聯邦學習國際標準獲批，目前已經有30多家企業參與其中。隨著聯邦學習理論研究的深入，微眾銀行在國內、國際大會上聯合多家合作夥伴舉辦聯邦學習研討會，比如國際頂會IJCAI和NeurIPS，國內計算機學會CCFTF等，吸引了更多研究者加入；基於聯邦學習開源軟體FATE（Federated AI Technology Enabler）的開源社區也漸漸吸納上百家機構應用和共建。在行業落地方面，微眾銀行積極推進聯邦學習在金融領域更加深入的應用，在風控、反洗錢、智能行銷、智慧城市等領域的應用均取得了很好的效果。

聯邦學習能夠充分的利用參與方的數據和計算能力，使多方可以協作構建通用，更健壯的機器學習模型而不需要共享數據，在數據監管越來越嚴格的大環境下，聯邦學習能夠解決數據所有權，數據隱私，數據訪問權以及異構數據的訪問等關鍵問題，所以自從聯邦學習的概念已提出就獲得了人工智能行業的追捧，目前已經在很多行業受到一定的應用，比如國防、電信、移動服務、醫療和物聯網等。

從整個數據產業看，聯邦學習可以增加可用數據的總量，能很好的解決現存數據孤島的問題；對企業自身而言，使用聯邦學習能簡單、合法且低成本的獲取外部有效的數據信息，快速解決某些因數據量或數據維度不足而導致的困擾，而且也不會造成合作企業間數據或商業機密的洩露。

聯邦學習成了解決數據難題的“金鑰匙”。它是解決數據孤島問題的重要技術，尤其是在當下數字化轉型趨勢日益明顯時，聯邦學習可為各行業的智能化升級提供更高效的模型應用，同時也是建設聯邦智能生態的重要組成部分。

微眾銀行AI團隊發布人工智能教科書《聯邦學習》打破數據孤島

聯邦學習作為新興的技術範式，能夠在數據不出本地的前提下，實現安全數據模型共建與AI協作。“數據不出本地”這一特性可以保證數據隱私保護，而AI聯合建模則可以最大程度挖掘數據價值，也因此，聯邦學習技術近兩年來市場呼聲極高。但隨著技術研究不斷深入與行業應用範圍日益擴大，市場亟需一本專業性及實用性兼備的“重量級專著”，來幫助機構及從業者快速與系統化地了解聯邦學習技術及其相關應用。

因此，《聯邦學習》中文版應運而生，該書由電子工業出版社出版，微眾銀行首席人工智能官楊強教授及人工智能部劉洋、程勇、康焱、陳天健、於涵等多位人工智能領域頂級專家歷時兩年，共同撰寫而成。該書凝聚了楊強教授團隊的多年學術成果和工程經驗，是國際首部全面、系統論述聯邦學習的中文著作，剖析了了面向數據安全和隱私保護機器學習學術成果和應用案例，數據孤島和數據保護難題破解之法。一方面對聯邦學習的整體構架、技術原理、重要價值進行了系統化介紹，另一方面也全面分享了微眾銀行在聯邦學習領域的深厚積累。

我們相信這本書的順利問世，既標誌著由微眾銀行AI團隊帶領構建的聯邦學習生態影響力正進一步擴大，也預示著聯邦學習這一技術在走向成熟，未來勢必將出現一個全領域合作的聯邦生態，建立起安全有效的“數據聯盟”，釋放數據無限價值，在保護用戶個人隱私的同時，實現全社會的智慧變革。正如《聯邦學習》中文版的作者之一，聯邦學習技術最早的布道者，國際人工智能界領軍人物楊強教授說的那樣：“聯邦學習作為下一代人工智能大規模協作的基礎，迎合了技術和社會的需求，將承擔起人工智能在發展和應用中的重任。”