一手交錢，一手交臉，人臉識別灰色生意調查：誰在賣，誰在買？

文|《財經》記者劉以秦

編輯|謝麗容

提要點：

5月12日，河南人黃方健收到一條兼職信息，稱要找人做“台燈測試”，一個人給30元錢。兼職信息上寫的是，在台燈前做扭頭、轉身動作。

黃方健並不清楚這是什麽意思，“聽起來很簡單”，他告訴《財經》記者，發布兼職信息的是他認識了七八年的一個中介，“我很相信他。”

到了現場之後才發現，台燈只是裝置，台燈上安裝的攝影頭才是重點，扭頭、轉身的目的是讓攝影頭采集人臉信息和動作數據。

4個小時後，黃方健和一起來的朋友把自己的“臉”完整地交給了這枚攝影頭。他們提供了自己的姓名和手機號，沒有簽任何數據使用合約，不清楚這些數據會被送到哪裡，“隱私問題？肯定不會有問題的，我認識這個中介很久了。”

中國的人臉識別技術已經走在世界前列，其中一個重要原因是可使用的數據量足夠大。這背後是大量像黃方健一樣的人，主動或被動提供了自己的“臉”。

國際調研機構 Gen Market Insights發布報告稱，中國已經是全球人臉識別設備市場最大的消費區域，2023年佔比將達到44.59%。

中國的人臉識別技術已經遍地開花，攝影頭無處不在，便利店可以刷臉支付；校園的門禁改用人臉識別；各類App的實名認證需要人臉識別；商場用攝影頭來監測人流；工廠用攝影頭來監管員工；一些科技公司甚至將攝影頭裝到了教室裡，學生的每一次舉手、思考、打盹都被記錄下來。

有人在賣“臉”，提前“享受”到AI技術的人，已經開始為“臉”維權。2019年4月，浙江理工大學副教授郭兵將杭州野生動物世界告上了法庭，原因是動物園將入園方式從按指紋改成“刷臉”，郭兵不願意使用人臉識別，他說，起訴的目的不在經濟補償，是對目前人臉識別技術濫用的一種鬥爭。

“臉”被賣到哪，用來幹什麽？

在河南一個簡陋的辦公室裡，前來賣“臉”的人排起了長隊，他們大部分是中老年，以女性居多，一些頭髮已經花白的奶奶們手裡還抱著孫子孫女，就像趕集一樣。

有人臉數據采集的現場工作人員告訴《財經》記者，一個村子只要有一個人來賣“臉”，他很有可能第二天把全村人都號召過來。

這次人臉采集沒有用台燈，桌上直接擺了一台電腦，坐在電腦前，在工作人員的指導下，抬頭、低頭、向左看、向右看……排隊的人們覺得很新奇，也跟著一起抬頭低頭。

村民們在乎那即將到手的幾十塊錢，幾乎沒有人會主動詢問這些臉部數據被采集後會用在什麽地方。他們聽不太懂什麽叫人工智能、大數據、人臉識別，也沒想過隱私問題，簡單的搖頭晃腦就能賺到幾十元錢，似乎沒理由拒絕。

臉是一個人最直觀的特徵，人臉上有大量的細節，來幫助我們辨認彼此，大眼睛、高鼻梁、左臉有顆痣，面部表情會傳遞情感，是開心、困倦還是生氣......也正是這些細節，讓機器認識了人。

這些“臉”的第一站，是數據標注公司的二次加工，變成結構性數據。然後賣給AI公司。

李飛（匿名）從來沒有這麽仔細的盯著一個人的臉看。他是一家數據標注公司的標注員，他的工作是在各種人臉照片和視頻上，用打點的方式來做標注，僅僅是眼睛，就要打超過10個點。

此外，他還需要標記出面部表情，例如笑、皺眉、打哈欠等。

中國AI產業發展的最大優勢，是龐大且豐富的數據，如果將AI比作人，數據就是AI學習的教材，有了足夠多的結構性數據，AI就能越來越高效。

儘管對AI技術並不了解，李飛也知道這項工作的目的，“通過我們標注好的數據，機器就可以識別出你是誰，你在做什麽。”他告訴《財經》記者。

標注完成後，數據會被打包好，上傳到大數據平台公司，然後賣到AI公司手裡。對於AI公司來說，這些從不同渠道買到的臉部數據，是他們的算法“口糧”。在AI領域有一個常識，算法是需要數據“喂”的，有了數據，算法才可以跑起來，數據越多，算法越準確，當識別的精準度足夠高，就可以做成產品，賣給各類有具體需求的客戶。

走出河南鄉村，人臉識別的應用場景非常豐富，深圳的警察在過去幾年，已經將人臉識別廣泛應用於嫌疑人定位和抓捕；智能手機不再局限於指紋識別，通過攝影頭的人臉識別解鎖，手機螢幕可以變得更大；一些校園、辦公大樓、景區門口，人臉識別代替了刷卡、檢票，減少人工；線下商場裡，人臉識別技術會分析顧客的行為和情緒，來幫助商家做出更有針對性的行銷策略。

由於對數據的需求不是持續性的，且采集並不複雜，對操作人員的技術也沒有特殊要求，只需提供專業的采集設備即可，很少有AI公司會自己成立數據采集團隊，大多交給外包公司。

閻良斌是知否大數據公司創始人，2014年他還在上大學，一次偶然的機會，他發現北京的一家AI公司有數據的標注和采集需求，他開始做兼職，一天可以賺到1000元錢。

“這可能是一個商機”，2017年，他在河南鄭州成立公司，系統性從事數據采集和標注的工作。

閻良斌告訴《財經》記者，如果只是采集人臉照片，一個人平均下來只需要5分鐘時間，視頻需要約1-2小時。通常的流程是，客戶告知具體的數據需求，他們會以此來預判所需要的人力和時間成本，進行報價，價格商議一致後，會先提供一些樣本數據，客戶對數據質量滿意後，就會進行正式的采集工作。

目前閻良斌接到的訂單，一次采集量在1000個人左右，這個規模的采集量，一周左右就能完成。

“臉”的流通到這裡還沒有結束。其實，所有的攝影頭在比對人臉時，又再一次的記錄了人臉，AI技術之所以有巨大價值，就是可以在不斷的應用中，自我優化。

每個人每天的面部情況，不是一成不變的，是否化妝，是否戴眼鏡，是否更換髮型，光線不同......同一個人不同時間走到攝影頭前面的角度也是不一樣的，攝影頭每拍下一張新的照片，就是將人臉數據更新了一次。

當攝影頭記錄了你100天的照片後，它大概就成為了這個世界上最熟悉你的“人”。

在一次次的人臉識別應用的過程中，這些“臉”變得越來越有價值，也變得越來越不受控制。

二次轉賣背後的灰色江湖

如果買賣人臉數據只是喂給算法，那麽，只要臉部數據的擁有者同意並知情，這還算是一門陽光下的生意。但隨著AI產業的迅速爆發，這一條產業鏈正在“變形”。

閻良斌一年前就聽說，網上有公開售賣人臉數據包，幾萬張人臉數據，只需要幾百元錢。

他說，按照正常的商業規則，這一批臉部數據賣給一個客戶後，賣家就應該刪除數據清除緩存，不得留存在自己的電腦裡。但這是道德約束，沒有很強的技術約束能力。沒有賣家會真刪除，他們還有很多渠道可以二次出售這批收據。“網上低價出售的數據，應該就是來源於這些已經被賣過一次的二手數據。”

第一次賣出的價格高，第二次重複賣，賣點是價格低。另一個人臉采集行業的資深從業者告訴《財經》記者，也不是所有人臉數據都可以二次出售。被二次低價售賣的數據通常是一些清晰的正面人臉照片。

不太好被二次出賣的是那些從一開始就有特殊定製化的臉。比如，有的客戶會要求只要戴著眼鏡的照片，或者戴著口罩的照片，或是光線昏暗下的照片。

這些被二次出賣的人臉數據賣給誰？許多初創AI公司，並沒有足夠的預算去定製化數據采集，這引發了對低成本人臉數據的需求，閻良斌透露，如果是初創公司剛開始跑算法，可以用這些數據，但是如果要將算法打磨的更精準，就不夠用了。

不過，這些便宜的人臉數據，並不完全來自上述渠道，來自四面八方。

多位AI行業人士向《財經》記者透露，除了數據公司定向采集，目前人臉數據主要有幾大來源：一是爬蟲軟體爬取網絡上的人臉數據；二是獲取公共場所攝影頭采集到的人臉數據；三是在各類人臉識別應用的場景下，每進行一次識別，就采集了一次新的數據，這些數據存在後台或雲端，可以拿出來再次售賣。

這三大來源，都是隱藏在蓬勃發展的AI產業下的數據買賣冰山。

去年年底，在一個科技行業論壇上，《財經》記者只花了3塊錢就買到了一個包含8萬張高清人臉照片數據的人臉數據包。如果你是該論壇VIP用戶，還可以免費下載。出售者私底下告訴《財經》記者，這是通過爬蟲軟體爬取的數據。

爬蟲工具是涉及到大數據的公司的通用工具，爬蟲工具的出現，可以提高數據搜集的效率，如果是爬取公開數據，例如百度索引，是合理合法的，但如果涉及到個人隱私數據，那就越過了紅線。

2019年10月，多家大數據金融公司被查處，其中包括51信用卡，原因是涉嫌利用爬蟲技術，爬取欠款人的個人隱私信息。

多位行業人士認為，在目前的法律框架內，如果爬取的是社交網絡上的公開人臉數據，且只有照片，並不匹配個人的身份信息，隻標注出性別，以及面部五官，用於跑算法的話，目前看來是不違法的。

公共攝影頭采集的數據，是指在小區、校園內、商場內、路口處或是車站內安裝的公共攝影頭，會采集到大批量的人臉數據，這些數據相對不那麽高清，但好處是可以用來驗證算法。

通過這些照片，AI公司可以分析出該場景下的人群分布情況，包括性別比例，大致的年齡分布，人流密集程度，以及行動軌跡。

從結果來看，這些數據的作用是巨大的，比如政府部門可以用來檢測公共場所的人流密集程度，來判斷是否應當增加安保；商場可以更有針對性的進行廣告宣傳等。

但從數據獲取的來源來看，它又顯得不那麽“陽光”。一家大數據公司的創始人告訴《財經》記者，他就曾經幫客戶采集過這樣的公共攝影頭數據。由於目前對數據的監管並不嚴格，獲取這些數據並不複雜，他透露，只需要花費小小的代價，“打通”一些簡單的關節，就可以拿到數據。

例如，小區和校園內的監控數據，只要“收買”安保處的工作人員即可，再或者，架設攝影頭的相關公司，都會留存這些數據，“你如果提出要買，對方沒有什麽理由不賣給你。”

也就是說，一手交錢，一手交臉的賣臉方式，賣的是高精度、多角度、符合特定要求的臉，但即便你沒有這樣的操作，只是在日常的生活中出現在臉部識別的攝影頭中，你的臉，也有可能多次產生你永遠不可能知道，也不會拿到報酬的商業價值。

不過，這些數據含金量並不高，高端買家更加青睞能夠定位到個人信息的人臉數據。一家AI公司CEO告訴《財經》記者，最有價值的數據，就是能夠匹配個人身份，且在不同時間、場景下的數據。

這就引出了人臉數據交易環節中，最隱秘的一環，如何拿到匹配個人身份信息的人臉數據，且是連貫性、結構性的數據。

人臉識別的一個常見的應用場景是門禁，將固定人群的數據輸入後台，當經過門口的攝影頭時，會被拍攝一張照片，算法會識別是否與數據庫匹配，如果匹配，就會放行。

在一些人看來，這是一個非常簡單的應用，只是做一個數據匹配而已。但如果這些數據被分類抽出，售賣，就是最有價值的人臉數據。

應該繼續下去嗎？

今年，閻良斌發現，僅僅是采集人臉照片數據，已經不能滿足客戶需求了。

他接到的訂單要求開始升級，主要包括兩類，一類是人臉視頻數據采集，相對於靜態人臉，視頻數據采集，要求的是動態的、自然的人臉；還有一類是海外人臉數據采集，對於閻良斌來說，要找那麽多外國人來采集人臉數據，難度加大不少。

采集一個人臉的視頻數據，至少需要40分鐘，“一次可能會來10個人，但只有2套設備，剩下的人要排隊等很久，他們就不願意等了。”這種情況下，一天最多采集20個人。

不止是視頻動態數據，今天，相對成熟的AI公司們基本都能做到識別準確率90%以上，他們還需要做到99%以上，閻良斌接到過專門要求采集雙胞胎數據的訂單，以及不同膚色人種的數據。

報酬確實會提高，但增幅有限，AI公司並不願意在數據采集環節支付過高的費用，“給到一個人的費用可能是從30增加到50，“很多訂單是不可能完成的。” 閻良斌說。”

需求升級的背後，是人臉識別技術的進階，對應的數據需求也越來越高。今天，大量的場景需要動態識別，而不止是讓用戶走到攝影頭前，站定，拍照，確認身份。

動態識別的價值似乎更高，應用場景之一是線下零售，安裝在各個角落裡的攝影頭，會記錄下顧客的行為軌跡，以及拿起每一件商品時的面部表情。

這需要人臉識別技術的“無感”，一位智能零售行業技術人士告訴《財經》記者，“如果顧客知道有攝影頭在拍，面部表情和行為會受到干擾。”他將這樣的數據稱為“髒數據”，“失去了很多分析價值。”

讓攝影頭“無感”，同時采集顧客的臉部和行為數據，怎麽樣算合法合理，行業裡是有爭議的。一家AI創業公司創始人向《財經》記者表達了他的看法。他認為，任何時候，任何地點，如果要采集人臉數據，就必須要告知，比如一些公共場所有攝影頭，會有標識稱您已進入視頻監控區域。

前述智能零售行業人士則表示，如果“采集到的數據不涉及個人身份信息，且隻用於當下的場景，也就是不會上傳到雲端，直接做出數據分析的結果”，就不會有問題。

但問題是，誰來規範這個“如果”？

同樣的問題在AI人臉識別的一個重要領域，校園裡，也有同樣的問題。

2019年9月，網絡上出現一幅課堂行為分析視頻的截圖畫面，教室裡的人工智能系統正在監測學生們睡覺、舉手、趴桌子和閱讀次數，不少網友稱學生沒有隱私和尊嚴。該系統開發商是AI獨角獸公司曠視科技，曠視隨後發布聲明稱，此為技術場景化概念演示，曠視在教育領域的產品專注於保護孩子在校園的安全。

學校已經是人臉識別技術的重要採購者。數據買來以後，可以用於校園內的安全防護，以及進校門的身份驗證，但這似乎還不夠，攝影頭已經開始批量進入教室內。

一家為學校做智能課堂改造方案的公司人士告訴《財經》記者，這樣的需求很多，但並不是為了監控學生，“我們目前接到的需求都是為了考核教師，如果學生表現的比較積極，說明這堂課的上課質量更高。”

智慧課堂早在2018年就已經開始落地，在2018年中國教育裝備展示會上，多家科技公司都展出了相關解決方案，包括曠視、百度、騰訊等，用以輔助教學評估。

AI創業公司一覽群智CEO胡建告訴《財經》記者，有能力且有意願採購AI技術的客戶目前並不多，學校有政府資金支持，並積極響應國家推動AI發展的號召，是除政府與金融機構之外的大客戶。

胡建提到，此前陸陸續續有不少學校找到他，希望可以提供相關的技術解決方案，但他的內心是拒絕的。

他始終認為，如果攝影頭都已經安裝到課堂裡，不管是監控學生還是老師，如果采集到的數據後續的流轉得不到制度和法律上的規範保障，目前就大規模應用，似乎有點過火。

《財經》記者的綜合採訪結果顯示，一些人認為這涉嫌技術濫用，這不是公司、學校，或技術本身的問題，但確實是個問題。新技術發展初期，會面臨類似難題，如果放而任之，很有可能出現孩子們的人臉數據進入灰色交易市場的失控局面；如果管得太死，又遏製了技術創新的機會。

今年6月開始，美國主流科技巨頭掀起了一輪集體抵製人臉識別運動。

6月8日，藍色巨人IBM 宣布：IBM 將不再提供任何人臉識別和人臉分析軟體，這是美國科技巨頭第一次旗幟鮮明地放棄人臉識別業務。

兩天后的6月10日，亞馬遜宣布將會暫停向美國警方提供人臉識別服務，時間長達一年。

緊接著的6月12日，微軟表示，在有監管面部識別技術的聯邦法律頒布之前，該公司不會向警察部門出售這種技術。

四天之內，三家主流科技巨頭接連叫停人臉識別。背後的原因只有一個，在人臉識別越來越具備寬廣的使用渠道的今天，尚無立法和規則來限制這項技術侵犯人權及被濫用。

美國之外，中國是人臉識別技術和應用最火熱的國家之一。前瞻產業研究院研究表示，未來五年中國人臉識別整體市場成長迅速，市場滲透快速攀升，預計到2021年中國人臉識別市場規模將達到53.16億元，2024年將突破100億元。

國家相關機構越來越重視個人隱私保護，《個人信息保護包》和《數據安全法》已經納入全國人大常委會2020年立法工作計劃。多位行業人士告訴《財經》記者，目前中國的相關法規依然在平衡商業創新和個人信息保護，目前還並未出現足以震懾行業的典型判罰案例。

6月15日，“中國人臉識別第一案”在浙江杭州富陽區法院開庭審理。此案還沒有最後的結果。

產業高速發展背後，是越來越明顯的社會矛盾，清華大學法學教授勞東燕撰文指出：所有的個人數據，包括識別性極強的生物學數據，都是由群體中的少數人來掌控。這些人究竟掌控我們多少的個人信息，為什麽要掌控我們的個人信息，掌控這些個人信息是要用來幹什麽，都是細思極恐的事。