依圖奪冠世界級聲紋識別競賽！智能語音戰場又破一城

新智元報導

編輯：木青

【新智元導讀】去年年底才宣布進軍智能語音市場，如今依圖科技又攻下一城：9月初，奪冠全球聲紋識別競賽VoxSRC。依圖正成為“邊界重塑者”，業務愈加多元：計算機視覺、NLP、芯片、智能語音，逐漸備齊各項AI能力。

AI技術戰場上，依圖科技又攻下一城。

剛剛，在全球聲紋識別競賽VoxSRC（VoxCeleb Speaker Recognition Challenge）上，依圖以大幅領先的成績奪得第一名。

去年年底，依圖宣布強勢進軍智能語音領域，並用“識別精度創中文語音識別新高點”的技術成就作為開場，如今在聲紋識別技術上亦是登頂。

這兩年來，依圖不斷在重塑邊界，業務越來越多元，一直在挑戰新領域，也屢摘桂冠——在AI技術上的記錄既有深度也有廣度，除擁有絕對優勢的起家本領人臉識別外：

視覺計算：成為“AI國家隊”，依圖承建“視覺計算國家新一代人工智能開放平台”。

語音識別：在全球最大的中文開源數據庫AISHELL-2中，依圖2018年時短語音聽寫的字錯率（CER）達到3.71%，大幅刷新當時的紀錄；

AI芯片：算法即芯片，重磅推出擁有世界級算法優勢的雲端AI芯片——求索(questcore)；

自然語言處理：基於機器學習的NLP技術，依圖醫療與合作團隊在世界頂級醫學科研期刊《自然·醫學》（Nature Medicine）刊發題為《使用人工智能評估和準確診斷兒科疾病》的醫療人工智能成果。

計算機視覺、智能語音、NLP、芯片，依圖的下一程又在哪裡？

超過清華、約翰霍普金斯團隊，拿下全球聲紋識別競賽冠軍

所謂聲紋識別就是說話人識別，根據人說話的聲音，判定人的身份的技術。

VoxSRC是基於英國牛津大學兩年前發布的公開聲紋識別VoxCeleb數據集組織的學術界知名比賽。

本次參賽者來自中、美、法、日本等多個國家的高校與企業，包括中山大學、約翰霍普金斯大學、清華大學、法國國家信息與自動化研究所、平安科技、NEC、君林科技等。

這是依圖首次且獨立參與這場競賽，參賽隊伍名稱為logicworld，比賽成績大幅領先第二名，依圖、第二名和第三名隊伍的 EER（等錯誤率）分別是 0.98% 、1.42%和1.54%。EER是判斷聲紋識別算法系統的綜合指標，EER越小系統性能越好。

VoxCeleb數據集來自YouTube名人採訪視頻，含有 7000 多個不同說話人超過 100 萬段語音，時長總共超過 2000 小時。不僅數據量大，VoxCeleb還充分考慮了數據的多樣性，61%的發言者為男性，並且涉及不同的種族、口音、職業和年齡。

此外，VoxCeleb的數據都來自無約束場景，比如紅毯採訪、會談錄音，因此音頻中含有大量噪音，包括背景噪音、笑聲、重疊的說話聲和其他雜音，收錄工具也不盡相同，有的甚至是手機拍攝的粗糙視頻。

來源複雜的數據集對聲紋識別技術水準的要求更高，聲紋識別的高準確率可以提高採用聲紋識別技術進行訪問控制的系統的安全性。

VoxSRC挑戰賽的另一大難點，同時也是其結果備受認可的一點，就是測試數據不含標注，也就是“盲測”，確保了比賽結果的公正與公平。

參賽團隊的任務是分辨一對音頻是來自同一個發言者還是來自不同的發言者，可以選擇固定訓練集，也可以使用無約束訓練集（除測試集以外的任何數據）。

依圖參加的是固定訓練數據集任務，在這種情況下，參賽者只能使用賽方提供的VoxCeleb2開發集，該數據集含有來自5994個講者的超過10萬句話語。

深度學習拓展聲紋識別邊界，深耕算法的依圖贏在起跑線上

此前，深度學習在聲紋識別領域並不常見，從2012年開始，深度學習逐漸介入聲紋識別，進行技術的重新洗牌。

事實上，相對於圖像和NLP領域，目前聲紋領域所用到的神經網絡和深度學習算法相對簡單，提升空間依然很大。

而依圖正是擁有世界頂級算法的人工智能公司，可以說是直接贏在了起跑線上。

還有一點值得注意，這次依圖參加的是固定訓練集任務，而其識別精度比其他使用無約束訓練集的團隊還高。

目前，聲紋識別的後端仍被PLDA等傳統處理和分類技術佔據，深度學習的介入可以促使聲紋識別像人臉識別一樣廣泛應用。

去年年底強勢進軍，成為智能語音界一匹黑馬！

依圖科技在2018年底殺入智能語音領域成為一匹“黑馬”。

用以宣布進軍語音戰場的則是技術與產業的雙重亮眼成績：

技術上，在全球最大的中文開源數據庫AISHELL-2中，依圖2018年12月時的短語音聽寫的字錯率（CER）達到3.71%，相比原業內領先者提升約20%，大幅刷新彼時紀錄。

產業上，依圖聯合微軟推出基於Azure雲服務的語音開放平台，並攜手華為發布軟硬體一體化的“智能語音聯合解決方案”，將依圖語音識別技術提供給第三方應用開發者。

那時候依圖就強調語音一直以來都是該公司的關注課題，進入語音識別領域是自然而然的事情，立志做世界最好的中文國語語識別技術。

訊飛依圖BAT各家算法差異巨大，訊飛依圖位列第一陣營

如同以往一直堅持的“技術王道”理念，在談到關於未來預計推出的語音產品及其功能時，依圖首席創新官呂昊博士曾經表示：“實際上，我們認為技術和場景是比產品和功能更關鍵的要素。”

依圖2018年推出的中文語音識別算法，與業內原有領先者相比，不僅大幅提升了識別準確率，而且在單個算法模型上，有極為出色的多場景適用性表現。

在全球最大中文開源數據庫AISHELL-2的三個測試子集，以及來自第三方的近場口音測試集（Accent）、近場安靜聊天測試集（Chat）、語音節目測試集、電話測試集、遠場測試集等測試場景中，依圖均處於業界領先水準，而且字錯率幾乎全部在15%以下。

其中，在AISHELL2的-2018A-EVAL數據集中，依圖的識別準確率高達96.29%，字錯率僅為3.71%，領先第二名約20%。

依圖聯合創始人兼CEO 朱瓏

而構建生態方面，2018年12月，依圖宣布與微軟Azure雲服務聯合發布語音開放平台，將行業領先的語音識別技術能力開放給第三方應用開發者。依圖也攜手華為聯合發布“智能語音聯合解決方案”，該方案基於依圖語音開放平台，以及華為全棧全場景昇騰系列芯片和面向數據中心側的 Atlas 300 AI加速卡。

已有的生態布局，加上從語音識別到聲紋識別不斷進行邊界拓展的技術積累，依圖已經在智能語音方面握了一手好牌。

邊界重塑者：視覺感知、NLP、AI芯片、智能語音，依圖備齊各項AI能力

不止是在語音領域成為“黑馬”，今年5月，依圖在發布會上重磅推出了擁有世界級算法優勢的雲端AI芯片——求索，打破了算法公司與芯片硬體公司的“次元壁”。

在近兩年來，依圖一直在“跨界”嘗試，不斷重塑業務邊界。

依圖求索芯片

當時AI“大牛”顏水成博士加入依圖擔任CTO時，曾向新智元表示：“依圖是一家非常低調的AI公司，但它無論是在產品還是國際技術比賽上都取得了非常好的成績，這引起了我的好奇，想要一探究竟。”

雖然低調，但AI成績單確實過硬。

截止目前，依圖在人工智能技術上的記錄既有深度——在視覺、聽覺、語義理解等方面分別問鼎全球一流水準，並且有公開的獨佔鼇頭的成績；也有廣度——覆蓋視覺感知、自然語言理解、語音/聲紋識別、AI芯片、AI醫療等方面。

其中，NLP的研究甚至已經與依圖早已進軍的AI醫療相結合。今年2月，世界頂級醫學科研期刊《自然·醫學》（Nature Medicine）在線刊發題為《使用人工智能評估和準確診斷兒科疾病》的醫療人工智能成果。

該成果由依圖醫療聯合廣州市婦女兒童醫療中心等機構共同研發，基於機器學習的自然語言處理（NLP）技術實現不輸人類醫生的強大診斷能力，並具備多場景的應用能力。

這是全球首次在頂級醫學雜誌刊發有關自然語言處理技術基於中文文本型電子病歷（EHR）做臨床智能診斷的研究成果。不久前，依圖醫療將相關技術應用於臨床應用，將全國首款兒科診療解決方案落地國家兒童醫學中心，就診時間縮短了1.5~2 小時。

在人臉識別方面，依圖在美國國家標準與技術研究院(NIST)舉行的全球人臉識別權威測試(FRVT)中連續三年獲得第一名。

在中央網信辦、工業和信息化部、警察部指導下的首屆中國人工智能競賽上，依圖斬獲10項A類成績，是奪冠最多的團隊。

芯片設計的技術實力也讓依圖一舉進入“AI國家隊”行列。

8月29日的上海人工智能大會上，科技部宣布，依托依圖先進的芯片設計及世界級算法，建設“視覺計算國家新一代人工智能開放平台”，促進芯片設計與人工智能的結合，推動視覺計算生態體系的建設。

逐漸備齊各項AI能力，業務能力越來越多元，商業競爭力不斷增強。

那麽，依圖下一步的計劃是什麽呢？下一個重塑的邊界在哪裡？這可能又是一個新故事。