每日最新頭條.有趣資訊

搜狗發布新研究:語音+唇語讓語音識別更準確

曉查 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

未來的人類如何與機器人交流?我們既需要機器人模仿人類的語氣、表情、動作,同樣也需要機器人能理解我們。

搜狗AI正在朝著這一步邁進:由人類說一段話,AI根據唇形和語音準確識別內容。最近搜狗與清華天工研究院合作,在語音和唇語的多模態識別方面取得了重大成果。

相關論文《基於模態注意力的端到端音視覺語音識別》已經發表在今年的學術會議ICASSP上。

ICASSP是全世界最大的,也是最全面的信號處理及其應用方面的頂級會議,是IEEE的一個重要的年度會議,對於信號處理方面的學術人士有著重要意義。

5月12日至17日,在英國布萊頓舉辦的學術會議上,搜狗的研究人員匯報了他們的研究成果,顯示了搜狗在語音識別、多模態識別領域的技術領先性和原創實力。

語音+唇語識別

隨著語音識別的快速發展,純粹靠聲音的識別技術越來越成熟,識別準確率達到98%以上,很多公司,包括搜狗在內都推出了成熟的產品,比如搜狗輸入法語音輸入和搜狗智能錄音筆等。

但是純粹依靠語音的識別方式存在一個缺陷,就是無法在嘈雜環境下仍然保持較高的識別準確率。

通常當語音環境比較安靜時,語音識別的準確率會比較高,但當語音環境較為嘈雜時,語音識別的準確率會明顯下降。

而視覺的識別方法不受環境聲音的影響,人在嘈雜環境下,聽不清對方講話時,會自然的盯緊講話者的嘴巴,大致明白講話者的意思。實際上聽力障礙人士,正是通過講話者的唇語進行交流的。

搜狗研究人員想到,如果讓AI也能把這兩種方法結合起來,就能提高語音識別的準確率。

早在2017年年底,搜狗就已經發布了一個唇語識別的初步成果,是業內首家公開展示唇語識別的公司。但當時的準確率僅有50%~60%,限制了它的實際應用,而且搜狗語音和唇語的技術也一直是分開做的。

經過一年多的發展,唇語識別技術已經有了很大的提升,搜狗團隊開始考慮將聽覺與視覺兩種識別的模式融合起來,即所謂的“多模態”識別,這是搜狗唇語識別繼烏鎮互聯網大會發布後的新突破。

原理簡介

但多模態識別不是簡單的把音頻和視頻的識別疊加起來,在這個過程中,研究人員需要克服兩個難題。

1、音頻和視頻幀率不同

聲音和視覺特徵是兩種本質上差異很大的模態,而且原始幀速率通常不一樣,音頻為每秒100幀,而視頻為每秒24幀。

採用直接拚接的方法會造成信息損失,使得聽覺特徵在模型訓練過程中起到主導作用,造成模型訓練難收斂,視覺信息對聽覺信息的提升有限。

2、如何選擇音頻和視頻的貢獻比例

在安靜的情況下應該是語音佔主導,在嘈雜環境下一定是視頻佔主導。如何根據不同的環境選擇二者的比例。

搜狗的做法是 “基於注意力的編碼器解碼器”。在這個框架下,分別使用兩個神經網絡編碼器對輸入的不同模態的序列進行逐層特徵抽取,得到高層特徵表達。然後,由解碼器分別對不同模態的特徵表達進行注意力計算,得到聲音和視覺模態信息中對應於當前解碼時刻的上下文向量(context vector)。不同模態的上下文向量經由模態間的注意力自動對不同模態的信息進行融合,並輸入到輸出層得到解碼輸出。

可見在編解碼框架下,由於融合的是不同模態的context vector,而不是對原始特徵或者編碼器輸出的高層特徵進行直接融合,解決了不同模態的特徵長度不同的問題。

同時,這種模態注意力(Modality Attention)依據不同模態各自的重要程度計算出相應的融合系數,反應了不同模態在當前解碼時刻的不同貢獻度,可以隨著不同解碼時刻的不同信噪比等得到不同的模態融合權重,得到更加魯棒的融合信息。

搜狗從去年6月開始立項,10月就完成並投遞了論文,在這個過程中,融合模型的設計是其中最困難的一步,研究人員周盼介紹說,他們在這個問題上花費了大約一半的時間。

實驗結果證實了搜狗努力獲得的回報。在信噪比為0dB(信號與噪聲大小相當)時,搜狗的多模態識別將準確率提高了30%

而且模型在不同噪聲下,體現出了對語音和視頻兩種不同模態間的依賴。隨著噪聲的提升,模型在融合音視覺時,對視覺信息的依賴比例在逐漸提升。

0dB信噪比時,視頻的注意力權重接近40%,高於語音清晰環境中35.9%的比例。

應用前景

現場,搜狗像我們展示了一段Demo,模擬了各種嘈雜環境下的多模態識別。

在模擬乘坐地鐵的環境中,可以看到無論是單獨的語音識別和唇語識別都無法正確還原原來的語句,但是二者結合起來,就可以正確識別出“北京今天氣象怎麽樣”這句話。

語音互動技術中心首席科學家陳偉還特別指出,視頻識別還能根據唇形識別語句在何處結束,也提高了在嘈雜環境下識別的準確率。

這麽實用的功能何時才能用上呢?陳偉預計,多模態語音識別將在搜狗的手機輸入法中集成,目前搜狗還在和車廠合作通過車內的麥克風、攝影頭做出更準確的語音識別。

輸入法走向對話、搜索走向問答,是搜狗一項長期戰略。未來視頻識別的場景會越來越多,所以搜狗認為多模態識別是NLP研究發展的一個必然的趨勢。

當然,在搜狗暢想的未來中,多模態識別的終極形態就是與AI分身的結合。

小程序|get更多AI學習乾貨

加入社群

量子位AI社群開始招募啦,量子位社群分:AI討論群、AI+行業群、AI技術群;

歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字“微信群”,獲取入群方式。(技術群與AI+行業群需經過審核,審核較嚴,敬請諒解)

喜歡就點「在看」吧 !

獲得更多的PTT最新消息
按讚加入粉絲團