每日最新頭條.有趣資訊

準確率提高9.5% 亞馬遜Alexa推出新語音識別系統

智東西(公眾號:zhidxcom)

編 | 劉陽

導語:亞馬遜Alexa部門的研究人員開發了2-mic語音識別系統,相較於傳統的7-mic系統,該方法將語音識別準確率提高了9.5%。

在語音識別方面,兩個麥克風比一個麥克風更好,這是一個公認的事實。直觀的說,這是有一定道理的:聲波到達多個麥克風的時間延遲不同,這可以用來提高來自某個方向的信號的強度,同時減少來自其他方向信號的干擾。傳統上,語音增強(將語音從噪聲中分離出來)的問題一直是獨立於語音識別來解決的,但是相關實驗結果表明,這種方法所取得的效果並不太好。最近,亞馬遜研究人員對此提出了自己的解決辦法。

亞馬遜Alexa部門的研究人員認為,他們已經開發出一種新的聲學建模框架,通過統一語音增強和語音識別來提高性能。在實驗中,當應用2-mic系統時,他們聲稱他們的模型比使用傳統的7-mic系統提高了9.5%的語音識別準確率。

他們在兩篇論文中描述了自己的工作成果,“頻域多通道聲學模型用於遠程語音識別”和“多幾何空間聲學模型用於遠程語音識別”,這兩篇論文將於下月在布萊頓舉行的第44屆ICASSP國際聲學、語音與信號處理會議上發表。

研究人員在論文中描述了一種多麥克風系統方法,它取代了獨立的手工編碼算法,這些算法確定波束形成器(在傳感器輸出上工作的空間濾波器,以增強波的幅度)的方向,並用單個神經網絡識別語音信號。亞馬遜目前的Echo音箱可以動態調整波束形成器,以適應新的聲學環境。

Alexa語音組的語音科學家Kenichi Kumatani在一篇部落格文章中解釋道:“傳統技術旨在將單個聲束指向任意方向,但這是一種計算密集型的方法。” “有了Echo智能音箱,我們可以將多個聲束指向不同的方向,並識別出產生最清晰語音信號的那一個……這就是為什麽即使電視在幾碼外發出刺耳的聲音,Alexa依然可以理解你對要求播報氣象預報的指令。”

單個神經網絡和傳統模型都將波束形成器的輸出以對數濾波器組能量的形式傳遞給特徵提取器,或者以多個不規則頻帶的信號能量快照的形式傳遞給特徵提取器。在傳統的模型中,它們對背景噪聲進行標準化估算,提取器的輸出被傳遞給一個人工智能系統,該系統計算出不同“電話”(即語音信息的短部門)對應的特徵的概率。

論文的作者表示,如果模型的每個組件(例如,特徵提取器和波束形成器優化器)分別初始化,性能就會提高。他們同時補充到,不同的訓練數據使模型能夠跨設備處理各種類型和配置的麥克風。Kumatani說:“這意味著新設備的ASR(自動語音識別技術)系統,或者使用範圍不太廣泛的設備,都可以從更廣泛使用的設備產生的互動數據中受益。”

原文來自:VentureBeat

獲得更多的PTT最新消息
按讚加入粉絲團