語音識別技術如何突圍？搜狗走了一條音視覺結合之路

看點：多模態識別再獲進步，搜狗聯合清華將音視覺融合，提升語音識別的效果，論文已被ICASSP2019收錄。

有一個像科幻電影《Her》中的虛擬助理（女友），大概是人們對人工智能美好的憧憬，儘管這一天可能還很遙遠。

為了實現這一技術突破，前幾年行業更多聚焦語音互動各個難題，而近兩年，一些技術先行者開始嘗試將語音、視覺、文本等信息結合的方式（即多模態）來推動人機互動技術的升級，多模態互動也成為學界、業界熱議的話題。

搜狗也是多模態互動技術的先行者，2017年就開始探索唇語識別技術，2018年推出合成虛擬主播，近期搜狗與清華大學天工研究院聯合發表了一篇《基於模態注意力的端到端音視覺語音識別》論文，在多模態識別領域又邁出一步，將音視覺融合到一起來提升語音識別的效果，並被世界頂級聲學、語音與信號處理大會ICASSP2019收錄。

從最初的語音互動到唇語識別，到機器翻譯、搜狗分身（合成主播），再到音視覺識別，搜狗這一技術進展可謂步步為營，而這背後則是搜狗在“自然互動+知識計算”的理念下，死磕技術難題，讓人機互動更高效自然。

噪聲環境下語音識別的另一條路

隨著AI的發展和智能音箱的推動，語音互動已經逐漸成為智能硬體的標配。作為語音互動前端的關鍵一環，語音識別近年也得到快速發展，不少公司都可以在安靜環境下將識別率做到98%以上。然而一旦進入噪聲場景，語音識別的準確度就會大大降低。

在智能硬體上，目前業界的主流方式是通過麥克風陣列來進行信號處理，用硬體的方式來進行噪聲消除，但當環境複雜噪聲很大的情況下，語音識別仍然存在很大瓶頸。

能不能通過視覺AI的方法來解決這一問題，尤其是在噪聲環境下，視覺會不會成為語音識別準確率的一個有效補償？因為視覺的識別方法不受環境噪音的影響，在嘈雜的環境下，人們即使聽不清對方講話，依靠唇形也能大體明白講話者的意思。

正是出於這樣的考慮，搜狗公司與清華大學天工研究院去年開始嘗試語音和視覺結合的方式，即音視覺多模態識別來提升語音識別的效果。

據搜狗介紹，這項技術研究從立項到論文投出僅用了近4~5個月時間，而之所以進展較快，與搜狗在語音識別與視覺識別領域的積澱密不可分。

在2016年，搜狗就開始做以語音為主的人機互動，並積累了語音識別、語義理解、機器翻譯、語音合成等全鏈路語音技術。

而在2017年底，搜狗就推出一項“黑科技”唇語識別技術，這在當時領先行業。當時唇語識別針對日常用語可以做到50%~60%的準確率，針對命令詞的識別可達到85%~90%，較早地做了唇語識別的技術儲備。

此次，搜狗取得階段性成果的音視覺多模態識別技術，正是基於語音識別和唇語識別這兩種關鍵技術。“通過二者的有效結合，可以在噪聲環境下，提升30%以上的語音識別準確率”，搜狗語音互動中心技術總監陳偉談道。

用模態注意力提升識別效果

要實現音視覺識別不同模態的融合並非易事，因為聲音和視覺的特徵差異很大。而簡單的將兩種模態拚接會造成信息損失，視覺信息對聽覺信息的提升也很有限。搜狗提出了一種模態注意力的方法，依據不同模態信息的重要程度進行動態調整融合，得到更加魯棒的融合信息。

清華大學天工研究院周盼解釋道，在音視覺信息融合的過程中需要解決兩個問題，第一個是音視覺信息不等長的問題，第二個是貢獻不等價問題。

具體而言，聲音和視覺在時間序列下的采樣頻率不同，一般情況下，音頻為每秒采樣100幀，而視頻為每秒24幀。音視覺識別首先需要將這100幀和24幀對齊，將這二者的信息融合共同做一個決策。對於聲音和視覺同步的信號來說，雖然可以按照二者幀速率的比值進行大致對齊，或者上采樣、下采樣的方法將二者變為相同幀速率進行融合，但是存在一定的信息損失。對於聲音和視覺不同步的信號，對齊就變得更困難。

另一個問題是貢獻度不等價。對於音視覺語音識別，在安靜環境下應該是語音為主導，在嘈雜環境下視頻信息的貢獻度相比在安靜環境下應該提升導。因此需要根據環境動態的調整音視頻的貢獻比例。

搜狗提出的模態注意力端到端音視覺模型，能夠將音視頻信息進行有效融合，然後根據具體的環境，動態調整選擇聲音還是視頻作為主要的識別對象，進而獲得更優的識別效果。具體而言，通過第一層常規的注意力（或者稱為內容注意力）得到在每個解碼時刻相應對的聽覺和視覺上下文向量。這兩個上下文向量內容上是彼此對齊的，這也就解決了上文提到的信息不等長的對齊問題。對於貢獻度不同的問題，如上圖，採用了第二層注意力，即模態注意力來依據聲音和視覺對識別的貢獻度動態的確定兩個模態的融合權重，得到包含聲音和視覺信息的融合上下文向量。

在一個Demo中，搜狗模擬了安靜、地鐵、大廳等環境，並提供了語音識別、唇語識別、混合識別三種模式。

可以觀察到，在安靜環境下，語音識別的準確率要高於唇語識別；而在噪聲環境（地鐵）下，唇語識別的準確率明顯高於語音識別。而在混合識別模式下，能夠達到識別效果的最大化。

比如，搜狗研究員楊文文用混合識別模式在噪聲場景下做了演示，說了一句“打電話給爸爸”，可以看到無論語音識別還是唇語識別都存在誤差，而二者的有機融合下，呈現出了準確的識別效果。

商業化未來可期

在商業化落地方面，陳偉表示，搜狗可能會率先將音視覺識別技術在搜狗輸入法上做嘗試，今年可能就會看到一些成果。另外搜狗也在和幾家車廠合作，積極開展音視覺識別技術的落地。

放眼當下的應用場景，無論是智能硬體，還是智能家居IoT領域，單純的語音效果其實並不理想，在複雜環境下單純靠硬體提升語音識別效果的方式也遇到一定的瓶頸。而此時採用音視覺多模態的識別技術，或許能夠將現有的AI效果帶向一個新的台階，從而創造更大的商業價值。