每日最新頭條.有趣資訊

百度山西數據標注基地:未來5年將培養5萬名AI數據標注師

8月7日,澎湃新聞記者探訪了百度位於山西省太原市的人工智能基礎數據產業基地,該基地是全國範圍內人員和產值規模最大的單體數據標注基地,入駐數據標注企業35家,有超過2000名的AI(人工智能)數據標注師,支持無人駕駛、語音識別、人臉識別、地圖數據等多種數據標注場景。

按照百度的計劃,未來5年,百度還將培養數據采集、標注專業人員5萬人。

百度(山西)人工智能基礎數據產業基地。

“七八年前,我們是通過線上眾包的方式,讓AI數據標注師來做一些比較簡單的任務,但隨著人工智能的發展,應用場景越來越多,任務難度越來越高,再加上對數據安全、隱私、質量和效率的要求,百度決定建立一個人工智能基礎數據產業基地。”百度(山西)人工智能基礎數據產業基地負責人尉赤告訴澎湃新聞記者,基地一方面為百度自身的人工智能發展提供服務,另一方面可以向合作夥伴輸出基地的數據能力和一整套的解決方案。

據了解,百度在2011年自建了數據采標團隊,支持內部人工智能業務的發展。2018年9月,百度與山西省轉型綜合改革示範區達成合作,共同打造數據標注基地。目前,百度已經幫助山西從全國各地引入35家數據標注企業,通過導入百度自有的數據標注業務,為人員提供業務培訓,幫助標注企業實現營業收入過億元。而百度與山西數據標注基地的合作模式,未來還將拓展到更多省市,提供更多的AI就業崗位。

AI數據標注師,被稱為人工智能背後的人。2020年2月,“人工智能訓練師”正式成為新職業並納入國家職業分類目錄,數據采集和標注是人工智能訓練師的主要任務之一。他們的工作是教會AI認識數據,有了足夠多、足夠好的數據,AI才能學會像人一樣去感知、思考和決策,更好地為人類服務。

在基地一間間的辦公室中,每個電腦前都坐著一名AI數據標注師,他們將根據各自分配的任務對圖像、語音、視頻、文本進行標注。比如,對於戴口罩的人臉圖像,數據標注師會對人臉的眉毛、眼鏡、顴骨等人臉關鍵點進行精準的標注,標注的特徵點越多,AI就越能精確地識別戴口罩場景下的人臉,讓人們在不摘口罩的情況下也能實現精確的體溫測量,或是通過人臉閘機。

“要教會AI,首先要把知識轉化成它能消化和吸收的‘語言’,你可以將數據想象成AI的燃料,人類對采集回來的原始數據進行加工,標注的過程就可以提取出一些數據信息。比如,在采集大量的人臉數據後,AI數據標注師會對人像進行標注,提取特徵,將特徵‘喂’給人工智能模型,那麽模型算法相當於總結了之前人工標注出的信息,並找出通用規律,那這個人工智能模型就具備了人腦才有的認知和判斷能力。”尉赤說。

據悉,AI數據標注師技術門檻並不高,經過一定的培訓就能上崗,招工人群範圍廣泛。在基地,大專以上學歷的數據標注師佔比超過80%,一些高職或高中學歷的人員也可勝任這項工作。

在探訪中,基地AI數據標注師李宇龍告訴澎湃新聞記者,他入行做的第一個項目是車道線的標注。“比如,對車輛所行駛的車道兩側的線進行編號,包括識別這條線是實線還是虛線。剛開始不知道這項工作到底運用到什麽地方,後來才知道是自動駕駛。”李宇龍說,他所做的2D/3D融合標注可助力自動駕駛模型的訓練,幫助車輛實現視覺和雷達的感知,主要應用於自動駕駛場景的訓練落地。

另一位AI數據標注師郭梅則向記者介紹,她原本就職於山西的傳統礦業部門,一開始每天只能標注兩三百張圖片,現在提升到每天能完成1300多張,收入高於當地平均收入水準。圖片框選是數據標注師的工作之一,它可助力圖像識別模型訓練,用於框選圖片中的識別主體目標,常見於對人臉、人體、障礙物、紅綠燈的框選,可應用於智能駕駛、智能安防、智能設備的場景落地。

對於為何要在未來5年培養5萬名AI數據標注師,尉赤向澎湃新聞記者表示,數據服務領域與人工智能的發展息息相關。“這是個高速發展的行業,5年培養5萬人並不算多,我們的線上眾包注冊用戶有將近2000萬人,目前每個月在線上為我們提供服務的人將近5萬人。如果按照行業增長速度來看的話,培養5萬人還不一定夠。”尉赤向澎湃新聞記者介紹。

對於如何保障數據安全,尉赤說:“這也是百度要建設基地的原因,在基地,每個房間都有24小時視頻監控,上崗之前進行人臉打卡,數據加密,作業期間若涉及數據敏感項目,會要求數據標注師們將手機放在固定的地方,而線上的數據標注師則是在處理一些敏感性不高的數據。”

獲得更多的PTT最新消息
按讚加入粉絲團