每日最新頭條.有趣資訊

蘋果如何讓 Siri在HomePod 上更聰明?技術細節

智能音箱常發生一些搞笑事件,像是答非所問、容易被錯誤喚醒、胡亂下電商訂單等,背後的問題與語音識別、噪音資訊的干擾大有關係,蘋果音頻軟體工程和 Siri Speech 團隊在蘋果的AI blog “機器學習期刊”撰文,透露了他們是如何在遠場設定中優化 HomePod 上的 Siri。

在智能手機上使用語音助理時,用戶的嘴巴通常是很靠近收音的麥克風,但使用智能音箱的情境則不同,用戶往往在有點距離的位置來操控音箱,這種“遠場互動”或是嘈雜環境就帶來了許多挑戰,包括回聲、混響(reverberation)和噪音等,都會降低目標說話者音頻的品質和可理解度,是智能音箱在設計上必須克服的難題。

而 HomePod 上 的 Siri 如何正確識別命令?簡單來說,蘋果為 HomePod 建立了一個多通道信號處理系統,使用 6 個麥克風,並在 Apple A8 芯片上連續進行多通道信號處理系統,同時,當環境噪聲條件和說話者改變,多通道濾波也會持續性調節運作。

蘋果指出,HomePod 的多通道信號處理系統主要有兩大方面的技術,一是基於掩模的多通道濾波(Mask-based multichannel filtering),使用了深度學習來消除回聲和背景噪聲,二是基於無監督學習(Unsupervised Learning)打造的“在線學習”算法,可以處理多麥克風信號、分離同時聲源。所以,當用戶說出“Hey Siri”喚醒詞時,集成上述兩大方法的系統,就會為語音識別器選擇出最好的音頻流,消除干擾語音。

圖|Siri 在 HomePod 上的在線多通道信號處理架構(圖片來源:蘋果)

信號處理從傳統算法走向機器學習

耳朵可讓人類聽得清楚,識別聲音的方向,或者判斷處在一個什麽樣的環境當中。想要讓機器能夠具備如同人類耳朵的完整功能,現有技術還是很難實現,主要在於聲音是一種疊加的信號,一個場景裡面有各種的人聲、噪聲等疊加在一起,信號能量混在一起之後,想要將其分開就很困難。

傳統聲音信號處理的思路是基於噪音特徵,比如噪音的形態(Pattern)是如何、在頻率上有什麽特性等,接著設計濾波器,把噪音留在濾網上,剩下的聲音就留下來。但此法存在一個問題,世界上的噪聲種類變化太多,聚合一起有各種排列組合,而且很多的動態噪音沒有辦法事先預測何時會出現。

以往主流作法是使用多個麥克風來收音、增強語音,焦點也多放在去除混響、噪聲抑製。不過,近幾年,前端的信號處理也開始引入了深度學習,在特徵提取之前,對原始語音進行處理,如噪聲抑製、回聲消除、混響抑製等。

圖|蘋果智能音箱 HomePod(圖片來源:蘋果)

利用無監督學習進行盲源分離

在蘋果公布的文章中,提出了多聲道回聲消除(MCEC)算法、基於掩模的回聲抑製和抑製等方法,不過,更值得注意的是,蘋果提出了一個關於盲源分離(BSS,Blind Source Separation)的觀點:BSS 可以通過無監督學習把多個音頻來源分離為單個音頻流,但是如何從多個輸出流選擇正確的音頻流(audio stream)仍然是個挑戰。

因此,蘋果認為需要建立自上而下的知識(Top-Down Knowledge)來了解用戶的語音命令,除了使用喚醒詞“Hey Siri”來識別目標對象的音頻之外,他們還開發了一種“分離競爭說話者”(competing talker separation)的方法,並且通過深度學習來選擇是哪一個講話者正在發出命令,應專注於處理該講話者。通過上述做法可以改善 Siri 在智能音箱上的體驗。

盲源分離可以說是目前聲學、語音識別領域一個很受關注的議題,許多科研人員或企業都想要突破這個問題,BSS 是指一種不需要預先得到資訊,從感測器所量測到的混合信號(mixtures)中,把信號源(sources)抽取、分離出來的方式,說得更簡單一點,BSS 的目標就是在信號和混合過程均未知的情況下,分離出各種音源。

在 Competing Talker Separation 部分,蘋果採用一種輕量的無監督學習方法,把麥克風陣列信號分解為獨立的音頻流,以進行盲源分離。此外,蘋果也開發一個基於深度學習的音頻流選擇系統,當系統偵測到“Hey Siri”時,會為每個音頻流打分數,並選擇最高分的音頻流,將其發送到 Siri 進行語音識別和完成任務。

語音被視為是繼觸控之後,將大量普及於日常生活的新互動模式,但仍舊有許多挑戰等待被解決,近年來,影像或影片的 AI 發展,快速,但相較於機器視覺的多樣化和活躍度,機器聽覺領域仍處於起步階段,而 AI 輔助語音處理優化智能語音助理在遠場互動體驗,也有機會為機器聽覺帶來更多突破。

獲得更多的PTT最新消息
按讚加入粉絲團