每日最新頭條.有趣資訊

劉聰:聽懂方言的AI,科大訊飛中文語音識別背後推手

2019年1月21日,《麻省理工科技評論》公布了2018年“35歲以下創新35人”(Innovators Under 35 China)中國區榜單。從榜單中,我們看到更多中國創新科研力量的崛起,也看到跨學科、跨領域、並且對落地應用有更強烈企圖心與使命感的科研創新,這其中涵蓋人工智能研究與應用、NLP、腦科學、新材料、新能源、生命科學、生物科技、自動駕駛等多個不同領域。我們將陸續發出對35位獲獎者的獨家專訪,介紹他們的科技創新成果與經驗,以及他們對科技趨勢的理解與判斷。

關於Innovators Under 35 China榜單

自 1999 年起,《麻省理工科技評論》每年都會推出“35歲以下創新35人”(Innovators Under 35 China)榜單,旨在於全球範圍內評選出被認為最有才華、最具創新精神,以及最有可能改變世界的 35 位年輕技術創新者或企業家,共分為發明家、創業家、遠見者、人文關懷者及先鋒者五類。2017年,該榜單正式推出中國區評選,遴選中國籍的青年科技創新者。新一屆榜單正在征集提名與報名,截止時間2019年5月31日。詳情請見文末。

近年來,科大訊飛通過訊飛輸入法和訊飛聽見等產品逐漸為人所知。它們的語音識別表現之所以能夠在業界獨佔鼇頭,其背後的中文語音識別系統功不可沒。科大訊飛AI研究院常務副院長劉聰,就是打造相關技術的主要負責人之一,他曾在2016年、2018年帶領團隊連續包攬國際英文多通道語音分離和識別大賽 (CHiME-4、CHiME-5) 的所有項目冠軍。

劉聰於2001年進入中國科學技術大學,攻讀電子信息工程專業。大三時,他在機緣巧合之下聽說了訊飛語音實驗室,而後成功加入其中,開始了在語音識別領域的研究。2010年,劉聰博士畢業後正式成為訊飛研究院的一員,專心致力於大詞匯量連續語音識別系統的構建和優化。2010年科大訊飛正式推出的“訊飛語音雲”,凝聚了劉聰和團隊在語音識別領域不斷探索的成果,識別效果達到了當時業界領先的水準。

在劉聰加入訊飛語音實驗室時,深度學習方興未艾,語音識別技術還處於發展初期,主流的傳統方法包括基於隱馬爾可夫模型(HMM)的區分性訓練等,但仍有很多尚未被挖掘的研究方向。這些都吸引了他繼續學習和研究,曾多次短期訪問微軟亞洲研究院和加拿大約克大學,研究和優化語音識別技術的算法。

此後,隨著深度學習技術的崛起,劉聰也將注意力轉移到了該領域。從深度神經網絡(DNN),到循環神經網絡(RNN),再到卷積神經網絡(CNN),劉聰和團隊數年來持續更新著語音識別系統的框架和模型。2015年,在解決了訓練收斂算法等技術難關後,他和團隊提出了基於深度全序列卷積神經網絡(DFCNN)的創新性語音識別框架,可以直接對整句語音而非局部的語音幀進行建模,同時因為卷積計算過程做了很大程度共享、使得可以設計非常深和寬的模型結構,以看到更長的歷史和未來的語音上下文信息。此外,因為DFCNN模型相對於傳統的RNN等模型可以同時抓住時域和頻域的結構信息,因此在建模精度上也更勝一籌。

在大數據和新技術的加持下,訊飛語音識別系統實現了高速自動迭代,語音識別錯誤率保持每年30%的相對下降,目前一般場景下的識別準確率可達98%。在此基礎上,劉聰還帶領團隊創造多種了中文方言識別、語音即修即改等實用性很強的語音功能,讓科技更好地應用在生活中。

不過劉聰並沒有止步於此,他關注到了深度學習的另一個應用方向:計算機視覺,並且敏銳地察覺到了兩者之間的聯繫。在成為科大訊飛AI研究院副院長之後,他從語音識別轉向計算機視覺,開始負責醫學影像、視頻分析和圖文識別等技術的研發和應用。

“因為深度學習的發展,在這兩個領域之間架起了一座橋梁,”劉聰在採訪中解釋道。依托於此前的深厚技術積累,他帶領團隊快速完成了語音識別到計算機視覺之間的算法框架遷移和借鑒。這雖然聽起來簡單,但實際操作起來,需要攻克很多技術難關。

例如劉聰發現,光學字元識別(OCR)與語音識別一樣都可以歸為序列識別的範疇,因此語音識別中屬於序列建模的相關模型可以應用到OCR領域。同時OCR又是一個計算機視覺問題,近年來計算機視覺領域在特徵表示學習方面取得了長足的進步。他和團隊結合特徵表示學習和序列建模的最新進展,大幅提升了OCR識別性能。

(來源:劉聰)

除了技術上的突破,劉聰還帶領團隊完成了多項技術落地應用,涉及語音識別、視頻監控、圖文識別和醫學影像等多個領域,建樹頗多。在他們的努力下,科大訊飛的醫學影像輔助診斷系統已經進入了50余家醫院,幫助醫生提供輔助診療服務;訊飛聽見已服務多場會議,進行語音和文字的即時轉換。

談到未來的發展,劉聰表示,他和團隊將繼續提升語音識別準確率,尤其是遠場識別和噪音環境識別,在中英文混合識別和個性化識別領域繼續優化和創新,並且專注於跨模態信息深度融合方向的探索,研究基於多模態信息的情感分析。

與好團隊一起把握住技術的下一個趨勢是劉聰的心願之一:“我們很幸運可以成長在這樣一個核心技術突破和產業應用爆發的時代,我們也希望借勢浪潮,盡力為時代做出更多貢獻。”

或許正是因為有很多像劉聰這樣看重技術落地的人,我們才有幸能見到越來越多的技術改變了生活。

獲得更多的PTT最新消息
按讚加入粉絲團