每日最新頭條.有趣資訊

想給Google做數據標注,你得先拿到醫師資格證才行

創投圈大小事,你都能盡在掌握

騰訊創業 | ID:qqchuangye

數據標注這份工作,也不是誰都能做的。

作者 / 邢逸帆

來源 / 矽星人(ID:zhenghedao)

文末有贈書福利哦~

在一排一排的電腦前,這裡的年輕人們一邊瀏覽照片和影片,一邊標記他們看到的每樣東西。

有的是在為無人駕駛公司標注路上的汽車和紅綠燈,有的是在為無人售貨公司標注麵包牛奶巧克力。

據《紐約時報》的報導,在位於中原腹地的河南河北,數據標注正在漸漸成為最新的勞動密集型行業。

有多少人工,就有多少智能。目前的人工智能在被投喂了大量數據之後,才能認出三歲小孩子都能認出的東西,學會“黑貓白貓都是貓”。

然而,在人工成本更高以及對數據標注要求更複雜的矽谷,工程師們需要尋找其他出路來獲取大規模的高品質有標記數據。

1

眾包

在人工費用高昂的矽谷,工人的最低時薪約為13美元左右。對於很多創業公司和中小企業來說,雇工人標注數據實在承受不起。

最經濟的方法就是把大量任務拆分成小任務,再以低廉的價格分發到用戶手中。

其中最有名的在線眾包平台就是亞馬遜旗下的Amazon Mechanical Turk了。

在Mechanical Turk 上,發布者可以自行上傳標注任務,用戶只需要填寫簡單的個人資訊就可以開始工作。

為了搞清楚Mechanical Turk到底是怎麽工作的,我們也注冊了一個账號。

在Mechanical Turk的開始頁面,有各種奇奇怪怪的任務。這其中包括“標注廚房裡的事物”,“找出電子郵件地址和發件人名字”,“給圖片中的物體勾線”等等。

每個任務中包含若乾個被稱為HIT(人類智能任務,Human Intelligence Task)的小任務,標注員每完成一個小任務可以獲得相應的報酬。

其中最便宜的一個是給圖片中的建築分類,判斷這個小樓是屬於拉丁裔、亞裔還是中東人。每完成一個可以獲得1美分(約7分人民幣)報酬。

而最貴的一個,是找一位中文母語者按要求錄150句中文,可以獲得6美元。

除了這些簡單易懂,點一下滑鼠就能完成的任務,在Mechanical Turk上還有更多高要求的標注工作。

比如,有一個任務要求標注者看10秒鐘影片,並用一句話描述影片裡的內容。

在描述時,不能出現拚寫和語法錯誤,也不能加以主觀臆斷,在囊括所有重要內容的同時又不能描述太多不重要的細節。

而實現這麽一個高要求的任務,發布者只需要付出0.3美元賞金。

儘管任務複雜報酬低廉,Mechanical Turk上的任務還是供不應求。一些低要求的工作被放出來不到十秒,就被搶光了。

截至2011年1月,Mechanical Turk上的注冊工人數量已經達到了50萬,在這些人的幫助下,有無數資金不充裕的人工智能研究得以實現。

此外,在網站輸入驗證碼時,其實我們也在順便做數據標注,只不過得不到報酬罷了。

而其實,Mechanical Turk(直譯為機械土耳其人)的名字早就劇透了人工智能訓練的本質。

1769年,初代Mechanical Turk的發明者——匈牙利機械師沃爾夫岡·馮·肯佩倫製造了一個“能戰敗人類”的下棋木偶。

這個“智能”木偶在歐洲和美洲幾乎戰無不勝,連拿破侖一世和本傑明·富蘭克林都成了它的手下敗將。

然而直到1857年,《國際象棋月刊》才揭露,其實傀儡裡坐了一個象棋國手。

而電腦螢幕背後的人,又和機器裡坐著的象棋國手有什麽區別呢?

2

和專業人士合作

眾包模式固然有種種優點,但它的缺點也是致命的。

當我向一位Google工程師朋友提起Mechanical Turk的時候,他表示“我們不敢用Turk 標注”。

因為眾包模式,通過Mechanical Turk標注的數據良莠不齊,花錢標注已經花了大功夫,整理和“清洗”數據又要浪費很多時間。

尤其對於很多專業領域來說,普通人根本無法完成數據標注。

2017年,Google AI公布了一項突破性研究成果:通過機器學習技術,AI能夠從病人的視網膜眼底照片中自動診斷出潛在的病變情況,來提前發現糖尿病性視網膜病變,進行及時的治療和預防,讓患者保住視力。

但想要教會AI什麽是正常的眼底照片,什麽是有潛在病變的眼底,這個過程並不容易。

為了獲得高品質的標注圖片,真正讓AI的診斷水準達到執業醫師的同等標準,Google與印度和美國的眼科醫生合作,創建了含有12萬張影像的開發數據集,再由3到7名眼科醫生聯合評估圖片中的病變。

最終,共計54名醫生從這些視網膜眼底照片素材得標記出超過88萬個確診症狀。

這些圖片和標記全部被用來訓練深度卷積神經網絡,最終使得AI的診斷準確率逼近甚至超越了醫生。

在Google Brain參與另一個與壽命預測相關的項目的工程師Steven Zhan告訴我,他們的數據集標注工作基本無法眾包,都是交給醫生來完成的。

雖然在未來,AI很有可能發展到“

自己教自己

”這一步。

但目前為止,大部分的數據標注工作都是由真人完成的。這個工作不像大家想象的那麽簡單,而是充滿了複雜的判定和繁瑣的重複。

而隨著人們對數據的需求越來越高,也有越來越多的人開始靠標注數據為生。

皮尤研究中心預測,這種零碎的數據標注工作將在未來幾年內成為美國經濟的重要組成部分。

在2016年,有大約5%的美國人通過Mechanical Turk這樣的在線標注平台賺錢——這個數量已經超過了優步司機。

在可見的未來裡,人類還將繼續為人工智能打工。

在中國如此,在美國也一樣。

騰訊創業福利時間

騰訊創業的朋友們!今天我們聯合機械工業出版社華章科技,又來為大家發書發書發書啦!

鐺鐺鐺鐺!本期贈書《股權規則:創業者基業長青股權法則》!20本!(原價59元)

歡迎在留言區和我們互動,1月22日上午10點,我們會為留言區點讚前20位的幸運讀者各贈一本《股權規則:創業者基業長青股權法則》!

獲得更多的PTT最新消息
按讚加入粉絲團