每日最新頭條.有趣資訊

一手交錢,一手交臉,人臉識別灰色生意調查:誰在賣,誰在買?

【版權聲明】本作品著作權歸《財經》所有,獨家授權深圳市騰訊計算機系統有限公司享有信息網絡傳播權,任何第三方未經《財經》授權,不得轉載。

文|《財經》記者 劉以秦

編輯|謝麗容

提要點:

5月12日,河南人黃方健收到一條兼職信息,稱要找人做“台燈測試”,一個人給30元錢。兼職信息上寫的是,在台燈前做扭頭、轉身動作。

黃方健並不清楚這是什麽意思,“聽起來很簡單”,他告訴《財經》記者,發布兼職信息的是他認識了七八年的一個中介,“我很相信他。”

到了現場之後才發現,台燈只是裝置,台燈上安裝的攝影頭才是重點,扭頭、轉身的目的是讓攝影頭采集人臉信息和動作數據。

4個小時後,黃方健和一起來的朋友把自己的“臉”完整地交給了這枚攝影頭。他們提供了自己的姓名和手機號,沒有簽任何數據使用合約,不清楚這些數據會被送到哪裡,“隱私問題?肯定不會有問題的,我認識這個中介很久了。”

中國的人臉識別技術已經走在世界前列,其中一個重要原因是可使用的數據量足夠大。這背後是大量像黃方健一樣的人,主動或被動提供了自己的“臉”。

國際調研機構 Gen Market Insights發布報告稱,中國已經是全球人臉識別設備市場最大的消費區域,2023年佔比將達到44.59%。

中國的人臉識別技術已經遍地開花,攝影頭無處不在,便利店可以刷臉支付;校園的門禁改用人臉識別;各類App的實名認證需要人臉識別;商場用攝影頭來監測人流;工廠用攝影頭來監管員工;一些科技公司甚至將攝影頭裝到了教室裡,學生的每一次舉手、思考、打盹都被記錄下來。

有人在賣“臉”,提前“享受”到AI技術的人,已經開始為“臉”維權。2019年4月,浙江理工大學副教授郭兵將杭州野生動物世界告上了法庭,原因是動物園將入園方式從按指紋改成“刷臉”,郭兵不願意使用人臉識別,他說,起訴的目的不在經濟補償,是對目前人臉識別技術濫用的一種鬥爭。

“臉”被賣到哪,用來幹什麽?

在河南一個簡陋的辦公室裡,前來賣“臉”的人排起了長隊,他們大部分是中老年,以女性居多,一些頭髮已經花白的奶奶們手裡還抱著孫子孫女,就像趕集一樣。

有人臉數據采集的現場工作人員告訴《財經》記者,一個村子只要有一個人來賣“臉”,他很有可能第二天把全村人都號召過來。

這次人臉采集沒有用台燈,桌上直接擺了一台電腦,坐在電腦前,在工作人員的指導下,抬頭、低頭、向左看、向右看……排隊的人們覺得很新奇,也跟著一起抬頭低頭。

村民們在乎那即將到手的幾十塊錢,幾乎沒有人會主動詢問這些臉部數據被采集後會用在什麽地方。他們聽不太懂什麽叫人工智能、大數據、人臉識別,也沒想過隱私問題,簡單的搖頭晃腦就能賺到幾十元錢,似乎沒理由拒絕。

臉是一個人最直觀的特徵,人臉上有大量的細節,來幫助我們辨認彼此,大眼睛、高鼻梁、左臉有顆痣,面部表情會傳遞情感,是開心、困倦還是生氣......也正是這些細節,讓機器認識了人。

這些“臉”的第一站,是數據標注公司的二次加工,變成結構性數據。然後賣給AI公司。

李飛(匿名)從來沒有這麽仔細的盯著一個人的臉看。他是一家數據標注公司的標注員,他的工作是在各種人臉照片和視頻上,用打點的方式來做標注,僅僅是眼睛,就要打超過10個點。

此外,他還需要標記出面部表情,例如笑、皺眉、打哈欠等。

中國AI產業發展的最大優勢,是龐大且豐富的數據,如果將AI比作人,數據就是AI學習的教材,有了足夠多的結構性數據,AI就能越來越高效。

儘管對AI技術並不了解,李飛也知道這項工作的目的,“通過我們標注好的數據,機器就可以識別出你是誰,你在做什麽。”他告訴《財經》記者。

標注完成後,數據會被打包好,上傳到大數據平台公司,然後賣到AI公司手裡。對於AI公司來說,這些從不同渠道買到的臉部數據,是他們的算法“口糧”。在AI領域有一個常識,算法是需要數據“喂”的,有了數據,算法才可以跑起來,數據越多,算法越準確,當識別的精準度足夠高,就可以做成產品,賣給各類有具體需求的客戶。

走出河南鄉村,人臉識別的應用場景非常豐富,深圳的警察在過去幾年,已經將人臉識別廣泛應用於嫌疑人定位和抓捕;智能手機不再局限於指紋識別,通過攝影頭的人臉識別解鎖,手機螢幕可以變得更大;一些校園、辦公大樓、景區門口,人臉識別代替了刷卡、檢票,減少人工;線下商場裡,人臉識別技術會分析顧客的行為和情緒,來幫助商家做出更有針對性的行銷策略。

由於對數據的需求不是持續性的,且采集並不複雜,對操作人員的技術也沒有特殊要求,只需提供專業的采集設備即可,很少有AI公司會自己成立數據采集團隊,大多交給外包公司。

閻良斌是知否大數據公司創始人,2014年他還在上大學,一次偶然的機會,他發現北京的一家AI公司有數據的標注和采集需求,他開始做兼職,一天可以賺到1000元錢。

“這可能是一個商機”,2017年,他在河南鄭州成立公司,系統性從事數據采集和標注的工作。

閻良斌告訴《財經》記者,如果只是采集人臉照片,一個人平均下來只需要5分鐘時間,視頻需要約1-2小時。通常的流程是,客戶告知具體的數據需求,他們會以此來預判所需要的人力和時間成本,進行報價,價格商議一致後,會先提供一些樣本數據,客戶對數據質量滿意後,就會進行正式的采集工作。

目前閻良斌接到的訂單,一次采集量在1000個人左右,這個規模的采集量,一周左右就能完成。

“臉”的流通到這裡還沒有結束。其實,所有的攝影頭在比對人臉時,又再一次的記錄了人臉,AI技術之所以有巨大價值,就是可以在不斷的應用中,自我優化。

每個人每天的面部情況,不是一成不變的,是否化妝,是否戴眼鏡,是否更換髮型,光線不同......同一個人不同時間走到攝影頭前面的角度也是不一樣的,攝影頭每拍下一張新的照片,就是將人臉數據更新了一次。

當攝影頭記錄了你100天的照片後,它大概就成為了這個世界上最熟悉你的“人”。

在一次次的人臉識別應用的過程中,這些“臉”變得越來越有價值,也變得越來越不受控制。

二次轉賣背後的灰色江湖

如果買賣人臉數據只是喂給算法,那麽,只要臉部數據的擁有者同意並知情,這還算是一門陽光下的生意。但隨著AI產業的迅速爆發,這一條產業鏈正在“變形”。

閻良斌一年前就聽說,網上有公開售賣人臉數據包,幾萬張人臉數據,只需要幾百元錢。

他說,按照正常的商業規則,這一批臉部數據賣給一個客戶後,賣家就應該刪除數據清除緩存,不得留存在自己的電腦裡。但這是道德約束,沒有很強的技術約束能力。沒有賣家會真刪除,他們還有很多渠道可以二次出售這批收據。“網上低價出售的數據,應該就是來源於這些已經被賣過一次的二手數據。”

第一次賣出的價格高,第二次重複賣,賣點是價格低。另一個人臉采集行業的資深從業者告訴《財經》記者,也不是所有人臉數據都可以二次出售。被二次低價售賣的數據通常是一些清晰的正面人臉照片。

不太好被二次出賣的是那些從一開始就有特殊定製化的臉。比如,有的客戶會要求只要戴著眼鏡的照片,或者戴著口罩的照片,或是光線昏暗下的照片。

這些被二次出賣的人臉數據賣給誰?許多初創AI公司,並沒有足夠的預算去定製化數據采集,這引發了對低成本人臉數據的需求,閻良斌透露,如果是初創公司剛開始跑算法,可以用這些數據,但是如果要將算法打磨的更精準,就不夠用了。

不過,這些便宜的人臉數據,並不完全來自上述渠道,來自四面八方。

多位AI行業人士向《財經》記者透露,除了數據公司定向采集,目前人臉數據主要有幾大來源:一是爬蟲軟體爬取網絡上的人臉數據;二是獲取公共場所攝影頭采集到的人臉數據;三是在各類人臉識別應用的場景下,每進行一次識別,就采集了一次新的數據,這些數據存在後台或雲端,可以拿出來再次售賣。

這三大來源,都是隱藏在蓬勃發展的AI產業下的數據買賣冰山。

去年年底,在一個科技行業論壇上,《財經》記者只花了3塊錢就買到了一個包含8萬張高清人臉照片數據的人臉數據包。如果你是該論壇VIP用戶,還可以免費下載。出售者私底下告訴《財經》記者,這是通過爬蟲軟體爬取的數據。

爬蟲工具是涉及到大數據的公司的通用工具,爬蟲工具的出現,可以提高數據搜集的效率,如果是爬取公開數據,例如百度索引,是合理合法的,但如果涉及到個人隱私數據,那就越過了紅線。

2019年10月,多家大數據金融公司被查處,其中包括51信用卡,原因是涉嫌利用爬蟲技術,爬取欠款人的個人隱私信息。

多位行業人士認為,在目前的法律框架內,如果爬取的是社交網絡上的公開人臉數據,且只有照片,並不匹配個人的身份信息,隻標注出性別,以及面部五官,用於跑算法的話,目前看來是不違法的。

公共攝影頭采集的數據,是指在小區、校園內、商場內、路口處或是車站內安裝的公共攝影頭,會采集到大批量的人臉數據,這些數據相對不那麽高清,但好處是可以用來驗證算法。

通過這些照片,AI公司可以分析出該場景下的人群分布情況,包括性別比例,大致的年齡分布,人流密集程度,以及行動軌跡。

從結果來看,這些數據的作用是巨大的,比如政府部門可以用來檢測公共場所的人流密集程度,來判斷是否應當增加安保;商場可以更有針對性的進行廣告宣傳等。

但從數據獲取的來源來看,它又顯得不那麽“陽光”。一家大數據公司的創始人告訴《財經》記者,他就曾經幫客戶采集過這樣的公共攝影頭數據。由於目前對數據的監管並不嚴格,獲取這些數據並不複雜,他透露,只需要花費小小的代價,“打通”一些簡單的關節,就可以拿到數據。

例如,小區和校園內的監控數據,只要“收買”安保處的工作人員即可,再或者,架設攝影頭的相關公司,都會留存這些數據,“你如果提出要買,對方沒有什麽理由不賣給你。”

也就是說,一手交錢,一手交臉的賣臉方式,賣的是高精度、多角度、符合特定要求的臉,但即便你沒有這樣的操作,只是在日常的生活中出現在臉部識別的攝影頭中,你的臉,也有可能多次產生你永遠不可能知道,也不會拿到報酬的商業價值。

不過,這些數據含金量並不高,高端買家更加青睞能夠定位到個人信息的人臉數據。一家AI公司CEO告訴《財經》記者,最有價值的數據,就是能夠匹配個人身份,且在不同時間、場景下的數據。

這就引出了人臉數據交易環節中,最隱秘的一環,如何拿到匹配個人身份信息的人臉數據,且是連貫性、結構性的數據。

人臉識別的一個常見的應用場景是門禁,將固定人群的數據輸入後台,當經過門口的攝影頭時,會被拍攝一張照片,算法會識別是否與數據庫匹配,如果匹配,就會放行。

在一些人看來,這是一個非常簡單的應用,只是做一個數據匹配而已。但如果這些數據被分類抽出,售賣,就是最有價值的人臉數據。

應該繼續下去嗎?

今年,閻良斌發現,僅僅是采集人臉照片數據,已經不能滿足客戶需求了。

他接到的訂單要求開始升級,主要包括兩類,一類是人臉視頻數據采集,相對於靜態人臉,視頻數據采集,要求的是動態的、自然的人臉;還有一類是海外人臉數據采集,對於閻良斌來說,要找那麽多外國人來采集人臉數據,難度加大不少。

采集一個人臉的視頻數據,至少需要40分鐘,“一次可能會來10個人,但只有2套設備,剩下的人要排隊等很久,他們就不願意等了。”這種情況下,一天最多采集20個人。

不止是視頻動態數據,今天,相對成熟的AI公司們基本都能做到識別準確率90%以上,他們還需要做到99%以上,閻良斌接到過專門要求采集雙胞胎數據的訂單,以及不同膚色人種的數據。

報酬確實會提高,但增幅有限,AI公司並不願意在數據采集環節支付過高的費用,“給到一個人的費用可能是從30增加到50,“很多訂單是不可能完成的。” 閻良斌說。”

需求升級的背後,是人臉識別技術的進階,對應的數據需求也越來越高。今天,大量的場景需要動態識別,而不止是讓用戶走到攝影頭前,站定,拍照,確認身份。

動態識別的價值似乎更高,應用場景之一是線下零售,安裝在各個角落裡的攝影頭,會記錄下顧客的行為軌跡,以及拿起每一件商品時的面部表情。

這需要人臉識別技術的“無感”,一位智能零售行業技術人士告訴《財經》記者,“如果顧客知道有攝影頭在拍,面部表情和行為會受到干擾。”他將這樣的數據稱為“髒數據”,“失去了很多分析價值。”

讓攝影頭“無感”,同時采集顧客的臉部和行為數據,怎麽樣算合法合理,行業裡是有爭議的。一家AI創業公司創始人向《財經》記者表達了他的看法。他認為,任何時候,任何地點,如果要采集人臉數據,就必須要告知,比如一些公共場所有攝影頭,會有標識稱您已進入視頻監控區域。

前述智能零售行業人士則表示,如果“采集到的數據不涉及個人身份信息,且隻用於當下的場景,也就是不會上傳到雲端,直接做出數據分析的結果”,就不會有問題。

但問題是,誰來規範這個“如果”?

同樣的問題在AI人臉識別的一個重要領域,校園裡,也有同樣的問題。

2019年9月,網絡上出現一幅課堂行為分析視頻的截圖畫面,教室裡的人工智能系統正在監測學生們睡覺、舉手、趴桌子和閱讀次數,不少網友稱學生沒有隱私和尊嚴。該系統開發商是AI獨角獸公司曠視科技,曠視隨後發布聲明稱,此為技術場景化概念演示,曠視在教育領域的產品專注於保護孩子在校園的安全。

學校已經是人臉識別技術的重要採購者。數據買來以後,可以用於校園內的安全防護,以及進校門的身份驗證,但這似乎還不夠,攝影頭已經開始批量進入教室內。

一家為學校做智能課堂改造方案的公司人士告訴《財經》記者,這樣的需求很多,但並不是為了監控學生,“我們目前接到的需求都是為了考核教師,如果學生表現的比較積極,說明這堂課的上課質量更高。”

智慧課堂早在2018年就已經開始落地,在2018年中國教育裝備展示會上,多家科技公司都展出了相關解決方案,包括曠視、百度、騰訊等,用以輔助教學評估。

AI創業公司一覽群智CEO胡建告訴《財經》記者,有能力且有意願採購AI技術的客戶目前並不多,學校有政府資金支持,並積極響應國家推動AI發展的號召,是除政府與金融機構之外的大客戶。

胡建提到,此前陸陸續續有不少學校找到他,希望可以提供相關的技術解決方案,但他的內心是拒絕的。

他始終認為,如果攝影頭都已經安裝到課堂裡,不管是監控學生還是老師,如果采集到的數據後續的流轉得不到制度和法律上的規範保障,目前就大規模應用,似乎有點過火。

《財經》記者的綜合採訪結果顯示,一些人認為這涉嫌技術濫用,這不是公司、學校,或技術本身的問題,但確實是個問題。新技術發展初期,會面臨類似難題,如果放而任之,很有可能出現孩子們的人臉數據進入灰色交易市場的失控局面;如果管得太死,又遏製了技術創新的機會。

今年6月開始,美國主流科技巨頭掀起了一輪集體抵製人臉識別運動。

6月8日,藍色巨人IBM 宣布:IBM 將不再提供任何人臉識別和人臉分析軟體,這是美國科技巨頭第一次旗幟鮮明地放棄人臉識別業務。

兩天后的6月10日,亞馬遜宣布將會暫停向美國警方提供人臉識別服務,時間長達一年。

緊接著的6月12日,微軟表示,在有監管面部識別技術的聯邦法律頒布之前,該公司不會向警察部門出售這種技術。

四天之內,三家主流科技巨頭接連叫停人臉識別。背後的原因只有一個,在人臉識別越來越具備寬廣的使用渠道的今天,尚無立法和規則來限制這項技術侵犯人權及被濫用。

美國之外,中國是人臉識別技術和應用最火熱的國家之一。前瞻產業研究院研究表示,未來五年中國人臉識別整體市場成長迅速,市場滲透快速攀升,預計到2021年中國人臉識別市場規模將達到53.16億元,2024年將突破100億元。

國家相關機構越來越重視個人隱私保護,《個人信息保護包》和《數據安全法》已經納入全國人大常委會2020年立法工作計劃。多位行業人士告訴《財經》記者,目前中國的相關法規依然在平衡商業創新和個人信息保護,目前還並未出現足以震懾行業的典型判罰案例。

6月15日,“中國人臉識別第一案”在浙江杭州富陽區法院開庭審理。此案還沒有最後的結果。

產業高速發展背後,是越來越明顯的社會矛盾,清華大學法學教授勞東燕撰文指出:所有的個人數據,包括識別性極強的生物學數據,都是由群體中的少數人來掌控。這些人究竟掌控我們多少的個人信息,為什麽要掌控我們的個人信息,掌控這些個人信息是要用來幹什麽,都是細思極恐的事。

獲得更多的PTT最新消息
按讚加入粉絲團