每日最新頭條.有趣資訊

腦波直接轉語音,史上最強讀心術

不動口也不動手,該怎樣與人交流?

靠眼神吧略顯曖昧,靠第六感吧又不太靠譜,這道題有解麽?

有,用萬能的AI啊。最近,Nature子刊Scientific Reports上報導了一項新技術進展:監測一下腦電波,AI就能還原你聽到的聲音。

來,我們戳鏈接聽效果展示。

你一定聽出來了。沒錯,音頻內容就是用英語從0念到9。研究披露,普通人理解並重複這些聲音的準確率達到了75%,效果遠超以往同類研究。

把大腦活動直接轉化成語音,這項研究潛力炸了。

目前,系統只能恢復人類聽覺區信號的簡單詞匯,但研究者最終想找到腦電波與語音的關聯,讓失去語言能力的人重新開口說話。

想象一下,失語的漸凍人或中風患者只要頭戴腦機接口設備,就能將所思所想直接轉化為文字語音。

不過,所有秘密也會隨之暴露,誰讓這是當代版最強“讀心術”呢。

AI“讀心”

這項研究來自哥倫比亞大學電氣工程學院副教授Nima Mesgarani團隊。他們在一系列實驗的基礎上,完成了這一研究。

實驗開始前,研究人員選擇了五名接受癲癇治療的患者作為實驗對象。研究人員採用植入性腦皮層電圖(ECoG)方法進行測試。所以實驗第一步就是,保證每個人腦中都已嵌入電極。

隨後,5位受試者開啟了聽音測試狀態,如同大學英語考試,兩位女考官開始讀單個數字。

這份“聽力材料”的難度不大,內容範圍就是從0~9這10個數字。女考官隨機讀出,前後共讀了40個數。

受試者只需要坐在那裡,通過腦機接口用模型重建語言資訊,最後由電腦讀出來。

那麽問題就是,整個重建流程是怎樣的?

在這個過程中,受試者接受到聲音,經過耳蝸時聲波信號被轉化成了神經電信號,經過前庭神經傳遞給大腦處理。

大腦聽覺皮層的神經網絡此時開始活躍,神經電信號同時也被電極所接收。

研究人員收集這些不斷變化的信號,提取其中的有效資訊,也就是高γ包絡(HG)+低頻(LF)信號。隨後,就該根據這些信號重建聲音了。

研究人員用兩種回歸方法與兩種重建的語音表示,探究兩兩組合情況下哪種重建方法效果最好。這樣一來,整個重建過程就分成了四種不同的方法,分別是:

(淺藍)線性回歸+聽覺圖譜(Aud Spec),簡稱LAS

(紫色)線性回歸+聲碼器,簡稱LV

(粉色)非線性深度神經網絡(DNN)+(Aud Spec),簡稱DAS

(紅色)非線性深度神經網絡(DNN)+聲碼器,簡稱DV

這裡的DNN架構由兩個模塊構成,即特徵提取網絡和特徵求和網絡。前者由全連接神經網絡(FCN)與局部連接網絡(LCN)構成,後者為一個雙層全連接神經網絡(FCN)。

在評估測試結果時,研究人員找來了11位聽力正常的志願者,隨機收聽用四種模型組合重建的音頻效果。如同大學英語4級聽力一樣,每個句子隻讀一遍。

最後,志願者理解與複述所聽內容,研究人員統計平均結果及平均意見得分(MOS)。

結果顯示,非線性深度神經網絡(DNN)+聲碼器組合(紅色,DV)的還原度最高,志願者的正確還原率達到了75%,且MOS得分最高,達到了3.4分。

此外,在志願者對受試者語言性別判斷中,DV的準確識別率也是組合中效果最好的,性別正確識別率達到了80%。

如果你對研究的詳細內容感興趣,可以看下他們團隊已經發表的論文:

Towards reconstructing intelligible speech from the human auditory cortex

困難亦重重

以上種種,都不是件容易的事。

“我們嘗試搞清楚神經元在不同時間點打開和關閉的模式,並推斷出語音。”Nima說:“這種映射關係並不是那麽直接。”

腦電波轉換成語音的模式因人而異,所以模型需要針對每個人單獨訓練。而且只有極其精準的信號才能得到最佳結果。怎麽才能獲得最精確的腦電波?

目前答案只有一個:開顱。

但是,能夠打開頭骨進行研究的機會非常之少。

要麽是在切除腦腫瘤期間,外科醫生需要讀取腦電波幫助定位,避免術中傷及語音和運動區域;要麽就是癲癇患者手術前幾天,開顱並植入電極以確定引發癲癇的部位。

“留給我們的時間最多只有20、30分鐘。”來自瑞士日內瓦大學的Stephanie Martin表示,收集數據的時間非常、非常之有限。

但,還有比開顱更困難的事情。

目前的進展,其實只是還原了一個人聽到了什麽,想更進一步怎麽辦?比如一個失語者想說點什麽,這套算法還管用麽?

加州神經學家Stephanie Riès表示,當一個人默默“說話”時,腦電波肯定與聆聽時不同。沒有與大腦活動相匹配的聲音發出,電腦甚至很難理解大腦內部一段話開始和結束的時間。

而人類目前的技術水準,可能根本不知道如何才能做到這一點。

荷蘭馬斯特裡赫特大學的Christian Herff提供了一個思路:

當你聽到一個聲音時,在大腦裡迅速默念出來,只要對人類和神經網絡充分的訓練,或許AI最終能具備完完整整的“讀心術”。

從大腦打字到大腦發音

自從電腦發明以來,人類一直希望實現腦機互動,也就是“腦後插管”。

在兩年前的F8開發者大會上,Facebook現場演示了如何讓一位漸凍症患者用大腦打字,速度可以達到每分鐘8詞。速度雖然不及手打,但對於殘障人士來說是巨大福音。Facebook未來的目標是實現每分鐘100詞的速度。

國內也有神經科學團隊在從事這項研究,去年量子位就現場體驗了清華大學實驗室的“意念打字”,控制螢幕軟鍵盤上的26個字母就能打出任何語句。

去年,京都大學的科學家再大腦控制鍵盤的基礎上再進一步,恢復了人腦中的影像。不僅僅是簡單的符號,而是擁有多種顏色和結構的照片。

有了這項技術,以後就可以輕易地知道一個人曾經發生過什麽事,去過哪些地方,甚至連白日做夢的場景都可以被讀取出來。

但語音才是人類與外界溝通最主要的方式。哥大的研究如果真的邁向實用化,前途不可限量。

One More Thing

研究之外還有福利~

放出這項研究的同時,研究人員還開放了神經聲學處理庫Nap Lib,可用於表征語言神經網絡表示的各種屬性。

Nap Lib同時適用於植入性和非植入性設備,是腦電圖(EEG)、腦皮層電圖(ECoG)和腦磁圖(MEG)研究中的通用工具。

GitHub地址:https://github.com/Naplib/Naplib

*文章為作者獨立觀點,不代表虎嗅網立場

虎Cares

「職場溫暖供應商」虎Cares

為您帶來今日氣象播報:

0攝氏度~零下10攝氏度

西北風轉東南風風力強勁

穿著建議

一套又暖又酷又輕盈的“薄暖秋衣褲”

獲得更多的PTT最新消息
按讚加入粉絲團