嘿，siri！嘈雜的酒吧裡，AI為什麽聽不懂指令？

出品：科普中國

製作：孫雪聰（中科院噪聲與振動重點實驗室）

監製：中國科學院計算機網絡信息中心

不知道你是否有這樣的經歷，月底窮困潦倒的你中午走進人潮喧嘩的食堂，正在心裡瘋狂比較哪個菜更便宜時，忽然聽到五米開外某人的一聲“咱們發工資了”，於是你理直氣壯地對食堂阿姨喊道：“加個雞腿！”

△（圖片來源：修改自《家有兒女》）

還有，不管在哪裡，周圍有多吵，一旦有人叫自己的名字，總是能聽到。人能夠在如此嘈雜的環境下精確捕捉到想聽到的聲音，甚至還能知道聲音的方位，相比之下，現在的很多智能設備卻做不到這一點，這究竟是為什麽呢？

人的聽覺為什麽具有選擇性

說起人的聽覺，有一個著名的效應——雞尾酒會效應，它是指在喧鬧的雞尾酒會上，參會者大腦中的聽覺系統可以將他的注意力集中約束在他感興趣的談話內容上，而自動忽略其他“無關”的噪聲，即使周圍環境非常嘈雜。

然而，這種我們人類用兩隻耳朵就能搞定的小問題，對於智能音箱等語音互動設備來說，卻並不是那麽容易的。當它們身處嘈雜的環境時，很容易就受到各種來路不明的聲音的連環暴擊，最終陷入我是誰我在哪我在幹嘛的死循環中無法自拔（感興趣的同學可以打開你身邊的語音互動設備嘗試一下）…於是，攻（工）城（程）獅（師）們本著大力出奇跡的原則，不惜斥巨資為它們裝上很多個金光閃閃的麥克風用來接收聲音，又去全世界各地搜羅各種各樣的聲音數據，沒日沒夜地投喂它們。但是，機器們學習的效果不是十分理想，雞尾酒會問題至今仍然困擾著世界各地的語音攻城獅們。

這時有的同學可能就要坐不住了：“就這？還用學？看來我的學霸屬性就要藏不住了！”這位同學你先冷靜一下，事情可並不是你想的那麽簡單喲。

其實，你能具有這種聽覺選擇能力首先要感謝你的媽媽給了你兩隻忽閃忽閃的大耳朵，這使得你的耳膜並不是像麥克風一樣是直接裸露在空氣中的。你的耳廓、頭部、肩膀、軀乾等身體部位對於聲音來說像是一個“迷宮”，來自不同方位的聲音需要從不同的入口進入，經歷上述部位的一系列反射後最終到達“迷宮”的中心——耳膜，然後你的大腦就能感知到這個聲音啦。

由於聲波所走過的路徑不同，它們的頻譜也會發生不同程度的修改。在這個“迷宮”的不同位置，仿佛潛伏著一群造型師（沒錯，就是讓你又愛又恨的Tony老師），聲波路過時總是難免被“改造”一番。由於這些造型師們風格迥異、水準參差不齊，在大腦看來，這些聲波就變得各有特色，所以很容易區分，怎麽說呢…有點像…

所以當你還是個小baby的時候，你還沒能累積足夠多的聽音經驗，你的大腦對這些改造過的聲音可能一時無法辨認，因此導致你對聲音的辨別能力可能比較弱。隨著你慢慢長大，聽到的聲音越來越多，你的大腦就會慢慢摸清套路，建立一套自己的算法（數據庫），這樣即使是好幾個聲音同時出現在你面前，你也能很輕鬆地區分他們。

機器怎麽獲取辨音能力

那麽問題來了！能不能讓機器像我們人一樣，擁有能夠分辨不同聲音的能力呢？答案是肯定噠！前不久，中科院聲學所的楊軍研究員團隊就提出了一種基於聲學超材料的單通道多聲源定位與分離系統，隻使用一個帶有超材料外殼的單通道傳聲器，即可實現三維空間中多個同時發聲聲源的實時定位與分離。研究成果發表在了綜合類期刊Advanced Science上。

別...別激動…說人話就是——給麥克風做了一個忽閃忽閃的“大耳朵”，不過這個耳朵跟我們的耳朵差別有點大，它長這樣…

△左圖：超材料結構模型圖右圖：超材料結構實物圖（圖片來源：作者繪製與拍攝）

我們暫且叫他“蜂窩耳”吧。這個“蜂窩耳”由外中內三層半球殼嵌套而成，每一層球殼上都隨機設置大小不一的圓孔，球殼之間隨機插入了若乾塊橫向和縱向的擋板來製造大小不一的腔體，在球心位置則放著一個單通道的麥克風。這些大小隨機的圓孔和隔板使“蜂窩耳”具有高度的空間不對稱性，因此會對來自不同方向的聲波起到不同的調製效果。

這個“蜂窩耳”中的聲學結構就像是一個個風格迥異的Tony老師，聲波經過時總是難逃老師們的“改造”，這位老師畫個眉毛，那位老師塗個口紅，所以等它到麥克風的面前時，早就不是它原本的樣子啦。

你可能已經猜到，“蜂窩耳”的學名就是——聲學濾波器。剛才所說的聲波的“改造”過程其實就是濾波過程，濾波後的聲信號頻譜會發生相應的改變，因此被麥克風接收到的信號就會產生與來波方向有關的差異性了。

那麽問題又來了——你以為聲波們長得不一樣，機器就能很快辨別出來嗎？想得美！

我們還需要訓練一個算法，讓機器提取這些聲波身上的獨家特徵，最終定位和識別來自不同方向的聲音。擁有這個算法就好像擁有了一本Tony老師們的《造型百科全書》，裡面記錄了各位Tony老師的改造技能和偏愛風格。從某種意義上說，這個算法也可以幫助廣大男同胞完美應對女朋友每日的靈魂拷問：“你覺得我今天有什麽不一樣嗎？”是不是很想來一套！

機器戴耳記

一切準備就緒，我們的“蜂窩耳”就可以正式上崗啦！

來自不同方向的聲波從外表面不同的位置進入“蜂窩耳”，經過不同的傳播路徑時被不同的造型師改造，被球形的麥克風接收；熟讀《造型百科全書》的算法對接收信號進行處理，最終重建出它們的來波方向和聲音的內容。這種超材料結構+智能算法的組合，隻用一個麥克風就能實現多聲源的實時定位和分離。攻城獅們再也不用擔心麥克風數量不夠用啦！

△“蜂窩耳”的工作流程（圖片來源：作者繪製）

你是不是也很好奇“蜂窩耳”的效果如何呢？來看看研究人員針對多個生活場景進行的聽音測試。

△實驗場景（圖片來源：作者拍攝）

“蜂窩耳”（圖片紅框裡）放在中間，周圍均勻放置16個音響用於播放測試所用的聲音。測試所用到的聲音包括馬路上的鳴笛聲、動物的叫聲、各種樂器聲、人說話的聲音等等，好奇心爆棚的筆者曾一度跑到“蜂窩耳”的位置，試圖挑戰一下這個聽音測試，當時的場景大概是這個樣子的…

不過，這對訓練有素的“蜂窩耳”來說就是小菜一碟啦。當空間中同時發聲的聲源不超過三個，定位與分離的準確率可以達到90%以上，耗時也不超過1s，是不是棒棒噠！

當然，現在的“蜂窩耳”還只能算一個小baby，它的聲學結構設計和後端算法仍有待進一步的磨合和提升，研究人員也正在馬不停蹄地研發“蜂窩耳”2.0版本。隨著語音技術的發展，我們身邊越來越多的電子設備都搭載了語音互動系統，希望這個“蜂窩耳”能讓這些設備更加智能，使人與機器之間的互動更加流暢和便捷。

參考文獻：

SUN Xuecong, JIA Han, ZHANG Zhe, YANG Yuzhen, SUN Zhaoyong, YANG Jun. Sound Localization and Separation in 3D Space Using a Single Microphone with a Metamaterial Enclosure. Advanced Science n/a, 1902271.

論文鏈接：https://doi.org/10.1002/advs.201902271