每日最新頭條.有趣資訊

聲音鑒黃師飽受摧殘 AI聲音鑒黃師為何沒幫上忙?

鉛筆道 專欄作者 | 智能相對論

智能相對論:深挖人工智能這口井,評出鹹淡,講出黑白,道出深淺。

早在互聯網發展早期,黃色內容主要是圖片和文字,靠人工就可以淨化網絡環境的目的,但是隨著互聯網帶來的數據爆炸,人工已經遠遠不能勝任。那麽這種枯燥且重複率高的工作AI有沒有辦法勝任呢?

人民對性的態度向來很奇怪,父母和長輩期待子女能無師自通,教育者三緘其口,最後少男少女通過其他管道實現了對性的初級摸索,當然這個摸索過程就很曲折了,文字,圖片,影片和音頻遍地開花,“學習資料”越來越方便傳播。

食色性也,但傳播色情內容卻有極大的負外部效應,懵懂少男少女極易受其蠱惑,鑒黃師的重要性可想而知。在蘋果商店的社交App中,有超過1/10的應用主打聲音社交功能,由此催生出了一個新興職業——聲音鑒黃師。聲音鑒黃師是一個讓身心飽受摧殘的職業,一位女性聲音鑒黃師稱,“一個人平均一天需要鑒定4000條資訊,24小時輪班監控,各種葷段子、曖昧語音,有時(聽到)惡心想吐。”

聲音鑒黃師是一份不足以為外人道也的工作

??????由於這份工作實在是太過於枯燥,很多男生都受不了,因此聲音鑒黃師多為女性且離職率高。一般枯燥且重複率高的工作都是AI的拿手好戲,那麽AI有沒有辦法實現聲音鑒黃呢?

聲音鑒黃之殤,AI難以克服雞尾酒效應

影片,圖片和語音是色情內容常見的三種形式,多數公司的鑒黃都是立足於影片和圖片,比如阿里的阿里綠網、騰訊的萬象優圖等等。有人可能會疑問,這幾年科大訊飛、百度、騰訊等公司先後對外公布語音識別準確率均達到“97%”,那為什麽在AI語音鑒黃上那麽難?

這是因為社交平台的語音環境十分複雜,機器很難從龐大雜亂的語音中揪出涉黃涉暴人員,而這就不得不提雞尾酒效應了。所謂雞尾酒效應是指,在雞尾酒會嘈雜的人群中,儘管周圍噪聲很大,兩人可以順利交談,你們似乎聽不到談話內容以外的各種噪音。這是因為我們的大腦對聲音都進行了某種程度的預判,然後才決定聽或不聽。

用特瑞斯曼的注意衰減理論來解釋就是,當人的聽覺注意集中於某一事物時,意識將一些無關聲音刺激排除在外,而無意識卻監察外界的刺激,一旦一些特殊的刺激與己有關,就能立即引起注意的現象。

但是機器卻不具備這樣意識和無意識,因此難以實現在嘈雜環境下的語音識別,這樣看來AI語音鑒黃貌似已經走進了死胡同。

實際上,已有公司在解決雞尾酒效應上做出了努力。今年 4 月,Google 曾在部落格上發文稱,谷歌研究人員開發出了一種深度學習系統,可識別和分離出嘈雜環境中的個體聲音。

圖片來自網易科技

研究人員從YouTube上10萬段“講座和談話”影片中提取了近2000小時的影片片段,然後混合音頻與人工背景噪聲,創造“雞尾酒派對”。訓練技術人員將混合音頻進行拆分,谷歌的系統能夠分辨出哪個音頻源在給定的時間內屬於哪張人臉,並為每個揚聲器創建單獨的語音軌跡。

但Google 的技術集中在影片處理上,主要是對數段聲音的分離,而人工聲音鑒黃僅僅依靠聲音,有所不同。前不久,阿里AI語音反垃圾服務上線公測,它可以通過聲紋識別技術,識別語音中存在的涉黃、廣告等違規資訊,不管是中日英俄等語言,還是東北,四川,廣東的方言,甚至連無意義的呻吟聲都可以輕鬆判別。

具體辦法是,對那些有語義的內容,系統先將語音識別轉成文字,然後再將這些文字跟文本反垃圾模型或關鍵詞庫比對,判斷是否涉黃,對那些無語義的聲音,通過聲紋也能識別出來。但有一點值得注意的是,在語音識別的過程中,識別是哪種語言比內容更難,機器翻譯也存在這樣的問題,因此還需要大量數據來進行訓練學習。

做好嘈雜環境的語音識別,難點是如何將雜音與人聲分離。但對於聲音鑒黃而言,一開始並不知道哪一個音源涉黃,很難說誰是噪音,這需要機器具有全局觀。而上面提到的技術,聲音分離或者將語音識別轉成文字都只是基本,由於尚未在語音複雜的環境下試驗過,因此這個結果嘛……退一萬步講,社交黑話也並不是那麽好破譯的。

社交黑話難解,語音識別障礙重重

時代要拋棄你,它只會讓你看不懂,而我們也不能指望人工智能聽懂。

就像你爹媽當初看不懂你的那句簽名:” ァ亊實證明,鱤綪桱淂起fеηɡ雨,卻桱囨起平啖;伖綪桱淂起平啖,卻桱囨起fеηɡ雨。ヤ”(沒亂碼),新一代社交黑話崛起一般人也很難看懂,比如XSWL(笑死我了,相當於一連串哈哈哈),NSS(暖說說,指幫點讚評論轉發說說,增進感情),CQY(處Q友的縮寫,想在QQ上找朋友的意思)。

當然這也還算好的,無非就是縮寫。除了縮寫,還有一些只能強記的詞語。比如養火(互發消息三天出現小火花,互發消息超過三十天出現大火花,養火就是經常聯繫的意思),歐洲(想要什麽就得到什麽的人)……

估計研究人員在錄入數據時就陣亡了,畢竟這玩意看上去也不算有章可循。值得注意的是,當人們在說話的時候,如果省略一兩個字不說,懂得的人自然也懂,但機器不一定能識別人們甚至為了混淆視聽,會多語夾雜,這就給機器識別增添了難度。

這種輸入標準的不統一,是導致語音識別錯誤率高的首要原因。我們常用的滑鼠和鍵盤雖然看似簡單,但它具備統一的輸入標準和精準的視覺反饋這兩點,而這正是語音識別技術不具備的,也是困擾現階段AI鑒黃的一大挑戰。

毫不意外,現階段的聲音鑒黃師依然是以人為主。早在互聯網發展早期,黃色內容主要是圖片和文字,靠人工就可以淨化網絡環境的目的,但是隨著互聯網帶來的數據爆炸,人工已經遠遠不能勝任。

雖然聲音鑒黃以人為本,但這並不意味著AI鑒黃師沒有價值。它能在特定的場景實現鑒定也無疑算是一種進步,而現階段它所呈現的問題,也無疑是技術發展過程中難以避免的陣痛。

全球經濟學家和谘詢公司的主流研究課題,總少不了人工智能會引發的失業規模,但是中國的互聯網已經跑出了一條獨特的路線,因此針對中國的研究少之又少。聲音鑒黃師作為互聯網發展過程中的獨特產物,顯然會存在相當長一段時間,而現行的人工智能鑒黃也多為輔助人。

一句正確但無用的話是,可以想見未來AI鑒黃會佔據主流,但這個未來應該以哪個時間節點為基準,誰也無法預料。

編輯 | 丹丹

優質項目“融資首發綠色通道”:創業者請加微信hkbx2296832155,務必注明項目名稱;或發送BP至[email protected]

本文為鉛筆道專欄作者“智能相對論”的原創作品,轉載請注明作者以及原文出處,未按照要求轉載者,鉛筆道保留追究相應責任的權利。本文僅代表作者本人觀點,不代表鉛筆道觀點,內容僅供讀者參考。

獲得更多的PTT最新消息
按讚加入粉絲團