腦波直接轉語音，史上最強讀心術

不動口也不動手，該怎樣與人交流？

靠眼神吧略顯曖昧，靠第六感吧又不太靠譜，這道題有解麽？

有，用萬能的AI啊。最近，Nature子刊Scientific Reports上報導了一項新技術進展：監測一下腦電波，AI就能還原你聽到的聲音。

來，我們戳鏈接聽效果展示。

你一定聽出來了。沒錯，音頻內容就是用英語從0念到9。研究披露，普通人理解並重複這些聲音的準確率達到了75％，效果遠超以往同類研究。

把大腦活動直接轉化成語音，這項研究潛力炸了。

目前，系統只能恢復人類聽覺區信號的簡單詞匯，但研究者最終想找到腦電波與語音的關聯，讓失去語言能力的人重新開口說話。

想象一下，失語的漸凍人或中風患者只要頭戴腦機接口設備，就能將所思所想直接轉化為文字語音。

不過，所有秘密也會隨之暴露，誰讓這是當代版最強“讀心術”呢。

AI“讀心”

這項研究來自哥倫比亞大學電氣工程學院副教授Nima Mesgarani團隊。他們在一系列實驗的基礎上，完成了這一研究。

實驗開始前，研究人員選擇了五名接受癲癇治療的患者作為實驗對象。研究人員採用植入性腦皮層電圖（ECoG）方法進行測試。所以實驗第一步就是，保證每個人腦中都已嵌入電極。

隨後，5位受試者開啟了聽音測試狀態，如同大學英語考試，兩位女考官開始讀單個數字。

這份“聽力材料”的難度不大，內容範圍就是從0~9這10個數字。女考官隨機讀出，前後共讀了40個數。

受試者只需要坐在那裡，通過腦機接口用模型重建語言資訊，最後由電腦讀出來。

那麽問題就是，整個重建流程是怎樣的？

在這個過程中，受試者接受到聲音，經過耳蝸時聲波信號被轉化成了神經電信號，經過前庭神經傳遞給大腦處理。

大腦聽覺皮層的神經網絡此時開始活躍，神經電信號同時也被電極所接收。

研究人員收集這些不斷變化的信號，提取其中的有效資訊，也就是高γ包絡（HG）+低頻（LF）信號。隨後，就該根據這些信號重建聲音了。

研究人員用兩種回歸方法與兩種重建的語音表示，探究兩兩組合情況下哪種重建方法效果最好。這樣一來，整個重建過程就分成了四種不同的方法，分別是：

（淺藍）線性回歸+聽覺圖譜（Aud Spec），簡稱LAS

（紫色）線性回歸+聲碼器，簡稱LV

（粉色）非線性深度神經網絡（DNN）+（Aud Spec），簡稱DAS

（紅色）非線性深度神經網絡（DNN）+聲碼器，簡稱DV

這裡的DNN架構由兩個模塊構成，即特徵提取網絡和特徵求和網絡。前者由全連接神經網絡（FCN）與局部連接網絡（LCN）構成，後者為一個雙層全連接神經網絡（FCN）。

在評估測試結果時，研究人員找來了11位聽力正常的志願者，隨機收聽用四種模型組合重建的音頻效果。如同大學英語4級聽力一樣，每個句子隻讀一遍。

最後，志願者理解與複述所聽內容，研究人員統計平均結果及平均意見得分（MOS）。

結果顯示，非線性深度神經網絡（DNN）+聲碼器組合（紅色，DV）的還原度最高，志願者的正確還原率達到了75%，且MOS得分最高，達到了3.4分。

此外，在志願者對受試者語言性別判斷中，DV的準確識別率也是組合中效果最好的，性別正確識別率達到了80%。

如果你對研究的詳細內容感興趣，可以看下他們團隊已經發表的論文：

Towards reconstructing intelligible speech from the human auditory cortex

困難亦重重

以上種種，都不是件容易的事。

“我們嘗試搞清楚神經元在不同時間點打開和關閉的模式，並推斷出語音。”Nima說：“這種映射關係並不是那麽直接。”

腦電波轉換成語音的模式因人而異，所以模型需要針對每個人單獨訓練。而且只有極其精準的信號才能得到最佳結果。怎麽才能獲得最精確的腦電波？

目前答案只有一個：開顱。

但是，能夠打開頭骨進行研究的機會非常之少。

要麽是在切除腦腫瘤期間，外科醫生需要讀取腦電波幫助定位，避免術中傷及語音和運動區域；要麽就是癲癇患者手術前幾天，開顱並植入電極以確定引發癲癇的部位。

“留給我們的時間最多只有20、30分鐘。”來自瑞士日內瓦大學的Stephanie Martin表示，收集數據的時間非常、非常之有限。

但，還有比開顱更困難的事情。

目前的進展，其實只是還原了一個人聽到了什麽，想更進一步怎麽辦？比如一個失語者想說點什麽，這套算法還管用麽？

加州神經學家Stephanie Riès表示，當一個人默默“說話”時，腦電波肯定與聆聽時不同。沒有與大腦活動相匹配的聲音發出，電腦甚至很難理解大腦內部一段話開始和結束的時間。

而人類目前的技術水準，可能根本不知道如何才能做到這一點。

荷蘭馬斯特裡赫特大學的Christian Herff提供了一個思路：

當你聽到一個聲音時，在大腦裡迅速默念出來，只要對人類和神經網絡充分的訓練，或許AI最終能具備完完整整的“讀心術”。

從大腦打字到大腦發音

自從電腦發明以來，人類一直希望實現腦機互動，也就是“腦後插管”。

在兩年前的F8開發者大會上，Facebook現場演示了如何讓一位漸凍症患者用大腦打字，速度可以達到每分鐘8詞。速度雖然不及手打，但對於殘障人士來說是巨大福音。Facebook未來的目標是實現每分鐘100詞的速度。

國內也有神經科學團隊在從事這項研究，去年量子位就現場體驗了清華大學實驗室的“意念打字”，控制螢幕軟鍵盤上的26個字母就能打出任何語句。

去年，京都大學的科學家再大腦控制鍵盤的基礎上再進一步，恢復了人腦中的影像。不僅僅是簡單的符號，而是擁有多種顏色和結構的照片。

有了這項技術，以後就可以輕易地知道一個人曾經發生過什麽事，去過哪些地方，甚至連白日做夢的場景都可以被讀取出來。

但語音才是人類與外界溝通最主要的方式。哥大的研究如果真的邁向實用化，前途不可限量。

One More Thing

研究之外還有福利~

放出這項研究的同時，研究人員還開放了神經聲學處理庫Nap Lib，可用於表征語言神經網絡表示的各種屬性。

Nap Lib同時適用於植入性和非植入性設備，是腦電圖（EEG）、腦皮層電圖（ECoG）和腦磁圖（MEG）研究中的通用工具。

GitHub地址：https://github.com/Naplib/Naplib

*文章為作者獨立觀點，不代表虎嗅網立場

虎Cares

「職場溫暖供應商」虎Cares

為您帶來今日氣象播報：

0攝氏度～零下10攝氏度

西北風轉東南風風力強勁

穿著建議

一套又暖又酷又輕盈的“薄暖秋衣褲”