每日最新頭條.有趣資訊

華裔科學家設計腦機新設備,人類首次直接用腦波“說話”

大數據文摘出品

作者:魏子敏、周素雲

這是人類歷史上第一次,直接從大腦中輸出完整的口語句子。

4月25日, Nature雜誌發表了一項新成果, 神經科學家設計了一種可以將大腦信號轉換為語音的設備。通過最先進的腦機界面,根據大腦活動控制的虛擬聲道來產生自然合成的合成語音。簡單來說,就是通過解碼人類嘴唇、下巴、舌頭和喉頭等腦信號,將其轉換成患者想表達的語音。

“這是第一次,我們可以根據個人的大腦活動生成完整的口語句子。” 加州大學舊金山分校神經外科教授,也是該成果的主要研究員Edward Chang說。

華裔教授Edward Chang,加州大學舊金山分校神經外科教授,重點研究方向為言語、運動和人類情感的大腦機制。圖片來源UCSF

語音障礙者廣泛存在。由於各類事故、中風或神經退行性疾病(如肌萎縮側索硬化症或肌萎縮側索硬化症)中受傷而導致言語能力喪失,成千上萬的人無法進行正常的交流。

用外部設備生成輔助語音輸出早已有之。我們之前所熟知的,例如霍金使用的語音合成器,是通過人類眼睛和面部動作來拚寫單詞,在理想情況下,可以幫助癱瘓者每分鐘輸出多達 8 個單詞。

這些技術已經給失語患者帶來了一些生活改善,但與自然語音每分鐘150 個單詞的平均速度比起來,通過外部接口進行輸出的速度還是太慢了。

Nature最新發布的這項實驗成果則將溝通恢復能力直接提升了一個層級:直接讀取大腦信號合成語音。相比逐字錄入,更加高效,並且可以解決現有技術語音輸出的很多問題,比如靠單個音節蹦字導致的語音語調缺失。如果可以應用到臨床,可以大大改善語音障礙患者的溝通能力。

Edward Chang團隊也放出了一段清晰可理解的語音例子:前半部分是參與實驗的閱讀者讀出的句子,後半部分是通過記錄患者大腦活動,自動產生的句子的。先來聽一下

儘管腦電波產生的內容相比自然語音依然頗為模糊,但是已經是整句的輸出,並且保留了句子的斷句感和語調。據該研究稱,多達70%的英語母語測試者認為可以聽懂相關內容。

其實去年年初,Science雜誌也報導過Edward Chang團隊在腦機接口上作出的

重要進展

,當時的研究還停留在單個數字的記錄上:研究者讓測試者聽口述數字,並基於其聽到數字時腦活動的記錄,進行電腦重建語音。當時的數字雖然也可辨認,但是隻停留在單個詞語的輸出。

而對比最新放出的音頻,僅僅一年多的時間,已經可以輸出完整的語句了。據Edward Chang稱,這一技術目前已經“觸手可及”,“我們應該能夠在失去語言能力的患者中,構建一種具有臨床可行性的設備。”

解讀大腦意圖,然後生成語音

對於因神經損傷而無法溝通的人來說,將神經活動轉化為語言的技術將具有變革性的意義。

從神經活動中解碼語音是具有挑戰性的,因為說話需要對聲道咬合架進行非常精確和快速的多維控制。Chang教授他們設計的神經解碼器,明確地利用人類皮質活動中編碼的運動和聲音表示來合成可聽語音。遞歸神經網絡首先將記錄的皮質活動直接解碼為關節運動的表示,然後將這些表示轉換為語音聲學。

在封閉的詞匯測試中,聽眾可以很容易地識別和轉錄從皮層活動合成的語音。即使數據有限,中間關節動力學也能提高性能。這些發現提高了使用語音神經假體技術恢復口語交流的臨床可行性。雖然,此次實驗是在具有完整語言功能的志願者中進行,但在未來,該技術有望恢復由於癱瘓和其他形式的神經損傷而失去說話能力的人的聲音。

實驗過程

該團隊招募了五名即將接受癲癇神經外科手術的志願者。為了準備手術,醫生們在大腦中暫時植入電極來繪製患者癲癇發作的來源。當電極就位時,志願者被要求大聲讀出數百個句子,而科學家則記錄了已知涉及言語產生的大腦區域的活動。

僅需兩步即可解碼語音:將大腦中的電信號轉換為聲音運動,然後將這些運動轉換為語音。

他們不需要收集第二步的數據,因為其他研究人員之前已經編制了一個大型數據庫,顯示了聲音運動與語音的關聯。他們可以用它來逆向設計患者的聲音運動。

然後,他們訓練機器學習算法,以便能夠將大腦中的電活動模式與這將產生的聲音運動相匹配,例如將嘴唇壓在一起,收緊聲帶並將舌尖移到嘴的頂部。他們將這項技術描述為“虛擬聲道”,可以直接由大腦控制,從而產生與人聲的合成近似。

為了測試合成語音的可懂度,科學家們通過亞馬遜Mechanical Turk平台,邀請了數百人進行樣本轉錄。

在測試中,每次給出100個句子和25個單詞,包括目標詞和隨機詞。聽眾辨識的準確率達43%。

一些發音,如“sh”和“z”被精確合成,對於“b”和“p”的發音解碼器還不能完全分清。

但這些並不影響正常地溝通,在日常生活中,我們也會漸漸熟悉一個人的發音方式,並對他們想要表達的話進行推測。

目前,該實驗算法還不能解碼未經訓練的句子, 要成為一個可行的臨床語言合成腦機接口,還有很長的路要走。

腦機接口相關探索

其實早在去年年初,Science雜誌就報導過Edward Chang團隊以及來自哥倫比亞大學(Columbia University)和德國不萊梅大學(Bremen)在腦機接口上作出的重要進展:通過手術,他們在大腦上放置電極,搜集電極產生的數據,再將其通過計算機變成語音信息;接著通過神經網絡模型,他們重建了在某些情況下,可以被人類聽眾所理解的單詞和語句。

當時,來自哥倫比亞的研究者試圖找出在不同時間點,大腦打開與關閉神經元的模式,並由此推斷語音內容。雖然這些模型將在非常精確的數據上表現最好——而搜集這些精準的數據需要打開我們的頭蓋骨。

研究人員只能在極少數情況下才會進行此類危險性記錄:一種情況是在移除腦腫瘤期間,暴露在外的大腦產生的電讀數能夠幫助外科醫生定位以避開關鍵的語音及運動區;另一種情況是在手術前為癲癇患者植入電極並保持數天以確定癲癇發作起因。

當時,Edward Chang就和他的團隊,根據由三名癲癇患者大聲朗讀語音引起的、從語言及運動區域捕獲的大腦活動,重建了整個句子。

在線上測試中,有166人聽懂了其中一個句子,並從10項文字選項中進行選擇。超過80%的情況下模型都能夠正確識別句子。研究人員還進一步改進了模型:他們使用它根據人類的唇語來重新創建句子。

當時的研究者也放出了一段實驗錄音,他們讓一組聽眾會在計算機“說出”數字同時對其進行評估;其精確度大約為75%。聲音聽起來有些可怕,但是仔細聽仍可以辨認出數字。

此外,鋼鐵俠“馬斯克”也對這個領域頗感興趣,除了電動車和太空探索,他也早早涉足了腦機接口這個領域,2016年創立了腦機接口研發公司Neuralink,與多位加州大學知名神經科學家合作,其短期目標是治愈嚴重的腦部疾病,如老年癡呆症和帕金森症,並且最終通過“與AI的融合”來增強大腦。

被人工智能、神經學和語言學共同推動的人類進步

該項目的研究人員目前正在試驗更高密度的電極陣列和更先進的機器學習算法,他們希望這些算法能夠進一步改善合成語音。該技術的接下來的目標,是將這個系統應用到一個不會說話的人身上,在無法用他們自己的聲音進行訓練的前提下,測試是否可以學習如何使用該系統,並將其推廣,讓他們能夠說出想說的任何內容。

Josh Chartier,Chang實驗室的生物工程研究生。圖片來自UCSF

該團隊的一位研究參與者表示,研究人員基於解剖學可以解碼和合成來自參與者大腦活動的新句子,以及算法訓練的句子。即使研究人員提供了記錄大腦活動數據的算法,而一個參與者只是在沒有聲音的情況下講話,系統仍然能夠在說話者的聲音中產生可理解的合並版本的混合句子。

研究人員還發現,聲音運動的神經代碼在參與者之間部分重疊,並且一個研究對象的聲道模擬可以響應從另一個參與者的大腦記錄的神經指令。總之,這些研究結果表明,由於神經功能障礙導致語言障礙的個體,很有可能學會使用這個系統,並以錄入聲音為模型的語音假體。

“肢體殘障者人已經學會用大腦控制機器人肢體,”Chang實驗室的生物工程研究生Chartier說。“我們希望有一天,有語言障礙的人能夠學會用這種腦控制的人工聲道再次說話。”

另一位研究者Anumanchipalli補充說:“我很自豪能夠將神經科學,語言學和機器學習的專業知識作為幫助神經殘疾患者,這是一個重要的里程碑。”

大數據文摘聯合清華數據科學研究院、油管AI最火up主Siraj的School of AI·北京,共同開啟線下工作坊!

第二次線下免費編程課,本周六清華開啟,長按填表報名

獲得更多的PTT最新消息
按讚加入粉絲團