每日最新頭條.有趣資訊

低學歷的印度數據標簽工,正成為全球AI功臣

【獵雲網(微信號:ilieyun)】3月23日報導(編譯:福爾摩望)

Kumaramputhur是喀拉拉邦Palakkad西北約45公里處的一個小村莊,約有3500個家庭在這裡居住。這個村莊沒有第一產業可言,它的性別比例和識字率都低於該州的平均水準。除了有一些現代化的痕跡,這裡似乎沒有什麽值得引起注意。

然而,正是在這個村子裡,高中輟學生Mujeeb Kolasseri指揮著一支由200多名員工組成的團隊,為美國、歐洲、澳大利亞和亞洲的客戶開發人工智能解決方案。Kolasseri 於三年前創辦了這家名為Infolks的公司,28歲的他是該公司資格最老的成員。

該公司的辦公室位於連接Palakkad和Kozhikode的高速公路上,雖然不起眼,但團隊裡的大部分成員都在這裡工作。他們所要做的就是將固定在自動駕駛車輛上的攝影機拍攝的車輛、交通燈、路標和行人的圖像進行強調和標記。這份工作看似簡單,但卻很困難,因為他們需要將雷射雷達遙感器捕獲的數據進行精確標記(雷射雷達為自動駕駛車輛創建3D地圖,以獲得對周圍物體的感知)。

約2000公里之外,加爾各答西南邊緣的梅蒂阿布魯茲胡格利河岸附近,約有200名婦女正在給圖像貼標簽,這些圖像將用於訓練自動駕駛車輛和擴增實境系統中的算法。

“他們參與著一些我們最前沿的圖像項目,”數據注釋公司iMerit的技術和行銷副總裁Jai Natarajan表示,其員工參與標記和準備數據,以訓練人工智能算法。

iMerit在加爾各答、蘭奇、布巴內斯瓦爾、維扎格和夏隆辦事處的數千名員工也在從事著類似的工作,通過給數百萬數據貼上標簽,幫助訓練全球各大公司開發的人工智能算法。

全球企業巨頭正在逐步採用人工智能,為人工智能算法提供支持的數據集也變得越來越專有,所以這些公司需要在要求、質量控制、反饋和交付方面與數據標簽團隊進行更高程度的合作。

由於本世紀初業務流程外包的繁榮,印度人對這些行話和要求並不陌生。數據注釋和標記也是一種由流程驅動的工作,需要精確的工作和技能,即使是受過高中教育的人也可以接受培訓。

隨著以眾包為主的第一代工作被更先進的要求所取代,Infolks、iMerit和Playment等公司開始迎合全球客戶,並使印度成為數據標簽和注釋工作的新興中心。

“這是一個新興行業。在印度,每個人都已經開始意識到它帶來的巨大機遇,”印度科技產業機構Nasscom的高級副總裁兼首席戰略官Sangeeta Gupta表示。“人工智能需要適當注釋、分類和匿名的數據。為此,不管喜不喜歡,你都將使用自動化,但你也必須使用熟練的人力資源,而這就是它給印度帶來的機會。”

根據研究公司Cognilytica的一份報告,到2023年底,與人工智能和機器學習相關的數據準備解決方案的全球市場,預計將從2018年的約5億美元增長至12億美元。

什麽是數據標記?

通過數據標記和注釋,來自非結構化來源(如照相機、傳感器、電子郵件和社交媒體等)以及來自結構化來源(如數據庫)的數據集被標記、標注、著色或突出顯示,以標記出差異、相似性或類型。通過這樣的方法,當數據被輸入到用於訓練人工智能系統的算法中時,該算法可以正確地識別數據並從中學習。

比方說,你想訓練一種算法,利用車載攝影機拍攝的圖像來理解路標。數據標簽工或注釋工將通過圖像數據集,使用標注工具標記或高亮顯示路標,並將其輸入人工智能算法進行學習。下一次,當算法在一個區域內實時行駛並遇到路標時,它應該能夠識別出路標。算法訓練的路標圖像越多,其準確性就越高。

推動人工智能或機器學習激增的是從互聯網、社交媒體、傳感器和其他來源獲取的大量數據。如今的算法有能力吸收更多的數據,從而也更精確。只要數據是優質且乾淨的,將另外一百萬個數據集輸入一個算法將會提高它的準確性。因此,這也導致了人工智能算法和應用對標注良好的數據產生了無止境的渴望。

根據Cognilytica的報告,現如今,數據準備和工程任務佔據了大多數人工智能和機器學習項目80%以上的時間。

“比如自動駕駛,一個小時的視頻數據可能需要消耗800個工時,”Playment首席執行官Siddharth Mall表示。

Infolks之旅

Kolasseri高中輟學後,在鋁加工行業工作,但由於健康原因不得不離開。在國內,他注冊了亞馬遜稱為“Mechanical Turk”(MTurk)的眾包就業市場,並開始從全球各地的公司從事注釋工作。

“我能夠保持99.8的評級是因為我能夠提供高質量的服務。我工作過的一家公司非常喜歡我的工作,於是直接找到我,並提供了更多的工作,”Kolasseri說,他隨後成立了一個六人團隊來完成這項工作。“我們最初在家工作,2016年初,隨著業務的增長,我決定注冊成立這家公司。”

最初,Kolasseri的兄弟和一個朋友投資了2.5萬盧比,幫助他建立了這家公司。如今,Infolks是一個正在成長中的團隊,其大部分員工來自Kumaramputhur及其周邊地區。

Kolasseri說:“公司的願景是將我們的村莊變得全球化,並為農村地區的年輕人提供經濟機會。近200名員工中有90%在20到25歲之間。”

儘管該團隊也負責醫療保健、機器人和農業等領域的數據集,但他們大約75%的工作都是在自動駕駛車輛領域。其客戶包括德國汽車公司戴姆勒和其他國際科技公司,由於簽署的協議,Kolasseri並未透露這些公司的名稱。

至於注釋,該公司使用客戶提供的工具,或者使用第三方工具。“我們的研發團隊正在開發自己的注釋工具。它目前正在測試中,應該會在接下來的幾周內推出,” Kolasseri表示。Infolks還在Kozhikode區附近的一個科技園區內設立了另一個辦事處。Kolasseri希望這能夠增加公司的收入,因為新的地點屬於經濟特區,有助於擴大其全球客戶群。

印度人工智能後台

亞馬遜的MTurk在開始限制非美國員工之前,曾是印度人尋找數據標簽和注釋工作的熱門平台。儘管後來取消了限制,但隨著企業客戶開始更加重視數據安全,MTurk在數據標簽商中的受歡迎程度有所下降。此外,包括Spare5、Cloudfactory和Figure Eight在內的新眾包平台也已經進入市場,它們則更加關注注釋和標簽市場。

Kolasseri說:“在創辦公司之前,我曾於2015年至2016年期間在MTurk平台上工作過,如今,仍然不斷有新的平台出現。但是,由於企業客戶非常關注數據安全,尤其是考慮到許多數據集都是專有的,因此信任這些平台上的工作人員成為他們面臨的更大挑戰。”

由前Flipkart員工Mall、Ajinkya Malasane和Akshay Kumar Lal所創立的Playment,則以一種略有不同的方式對待注釋和標簽行業。

該公司為各種用例開發了一系列注釋工具,並開發了一個由受過這些工具培訓的標簽工和注釋工組成的眾包平台。該公司直接與客戶或相關的信息技術服務公司進行合作。

“要將原始數據轉換為帶注釋的結構化數據,你需要前端注釋工具、熟練且經濟高效的人力資源。此外,由於處理數據的規模化,你還需要有合適的中間件來支持不同的工作流並管理遠程人力資源,”Mall說。

Playment的眾包平台擁有30多萬標簽工和注釋工。其中,該公司認為約有2.5萬人是“高技能頂級玩家”。據Mall稱,這些人幾乎整天都在平台上,平均月收入為2萬至3萬盧比。

Playment的大部分工作也來自國際客戶,其中包括三星、滴滴出行、阿里巴巴、Drive.ai和Continental AG,其中大部分都屬於自動駕駛車輛領域。

iMerit的戰略則以員工為中心。其2000多名勞動力中,約80%來自月收入低於100美元的家庭;其中大約一半是女性。“我們的社會使命是在貧困社區和公司或工業較少的地區創造技術就業機會。我們在科技產業稍低、科技就業機會較少的城市開展業務,” Natarajan說道。

所謂的利他主義也有很好的商業意義。Natarajan表示:“我們的合作夥伴和辦公地點,允許我們以非常經濟高效的方式擴大數據注釋和標簽團隊,並為客戶提供高質量的工作。”

儘管iMerit的大部分業務都來自美國——客戶包括微軟、易趣和Tripadvisor——但其90%的數據注釋和標簽工作是在印度完成的。

注釋自動化

雖然各大公司正在開發用於注釋的自動化工具,但由於許多工作需要更為細致的定製注釋或標簽工作,要想讓自動化工具達到高精度還需要一段時間。

Natarajan說,與五年前人工智能還在區分貓和狗的不同相比,現在的人工智能需要處理更高級的工作。“機器學習已經向前發展,所以不再有人要求我們為狗和貓進行標記。如今,每家公司都有定製的需求和非常細微的需求,所以不可能自動實現這一點,也不可能自動給出數據並由一群匿名人士貼上標簽。”

他說,基於人工智能的自動化注釋工具是不可避免會出現的,但它並不是一個威脅。“自動化注釋工具本身就是經過良好注釋訓練出來的結果。當你試圖解決一個問題時,這些工具只能把你帶到一定的水準,但是要超越這個水準,你還需要自定義注釋,”Natarajan說。

當然,加以一段時間,自動化工具會變的足夠有效,從而能夠創建更好地數據集。“從更長遠的角度來看,我們確實認識到這個行業並不能永久存在。當客戶成功時,我們的任務就結束了,”Natarajan說。“但我們也發現,這也並不是一個100%肯定的事情,因為它總是一個持續不斷的學習和改進的過程。此外,當客戶轉向下一個問題時,一切又都從零開始了。”

換句話說,印度的數據標簽和注釋公司尚未見頂,這一行業可能需要很長時間才會走上業務流程外包的老路。

獲得更多的PTT最新消息
按讚加入粉絲團