人工智能破譯神經活動，腦機接口說出無言心聲

公開日: 2019-04-25

摘要：將計算機連通人腦，直接讀取意識，這不是科幻。

將計算機連通人腦，直接讀取意識，這不是科幻。

頂尖學術期刊《自然》剛剛在線發表的一項工作就在腦機接口領域向前邁出了一大步。加州大學舊金山分校（UCSF）的神經外科學家Edward Chang教授與其同事開發出一種解碼器，可以將人腦神經信號轉化為語音，為幫助無法說話的患者實現發聲交流完成了有力的概念驗證。

腦機接口（BCI），指的是在人或動物大腦與外部設備之間創建的直接連接，實現腦與設備的信息交換。近年來，這一技術的快速發展正在為那些神經受損或嚴重運動障礙的人們改善生活質量。比如，幫助癱瘓人士靠“想”控制機械臂取物，或是控制螢幕上的游標打出字詞。然而，“意念打字”的速度目前只能達到每分鐘10來個單詞，比正常的人類說話速度要慢得多，還遠不能滿足患者的溝通需求。

因此，一些科學家們試圖解碼大腦中的言語信號，並通過人工語音合成，把“想”的內容真正“說”出來！

本次研究的主要負責人Edward Chang教授是一名神經外科醫生，擅長治療成人癲癇、腦腫瘤等疾病，研究主要集中於語言、運動和情感的腦機制（圖片來源：UCSF官網）

要挑戰重建語音的難題，需要首先實現對表征語音動作的神經活動進行解碼。一些接受開顱手術的癲癇患者為神經科學家提供了寶貴的數據。由於需要為一些患者定位癲癇發作的源頭，神經外科醫生會通過手術在患者顱內植入電極，以便監測其大腦活動。在此基礎上，研究人員採用了一種叫作高密度腦皮層電圖（ECoG）的技術，直接記錄下受試者大腦皮層的神經活動。

受試者首先按要求大聲讀出幾百條句子，與此同時，研究人員記錄他們大腦的語音產生中心——腹側感覺運動皮層區域的神經活動。

利用循環神經網絡（RNN），研究人員分兩步破譯了采集到的神經信號。第一步，他們將神經信號轉換為表征發音器官動作的信號，包括下巴、喉、嘴唇和舌頭動作相關的腦信號。然後，根據解碼出來的發音器官動作，把信號轉換為說出的詞句。

腦機接口實現語音合成的圖示（圖片來源：參考資料[1]）

這種創新的解碼方法有助於解決重建語音時的聲學失真問題，讓合成的語音更容易被人聽清、聽懂，接下來的測試結果驗證了這一點。研究人員在亞馬遜的眾包任務平台Mechanical Turk上招募聽眾來辨認解碼器合成的語音，包含325個單詞和101句整句。檢驗測試中，聽眾可以成功地識別出單詞，和對自然語音的感知模式一致。對於合成語音發出的整句，聽眾也能識別出句子的意思。

第一作者Gopala Anumanchipalli博士認為，該結果意味著，這種神經合成語音對於現實世界的應用來說已經達到即刻聽懂的實用程度。

更有意義的是，研究人員還測試了解碼器對於不出聲說話的語音合成能力。一名被試先按要求說出句子，然後默念同一個句子，也就是只有發音的動作、並不發出聲音——這種情形更符合某些患者的實際情況。結果顯示，解碼器對默念動作合成的語音頻譜與同一句句子的有聲頻譜是相似的。

儘管如生物工程學教授Chethan Pandarinath等人在同期《自然》上刊發的評論中所言，這一系統要真正成為一個臨床可行的語音腦機接口還面臨許多挑戰，但毫無疑問的一點是，腦機接口技術的持續進步將讓有發聲障礙的人重新獲得自由說出心聲的能力，與周遭世界重新建立聯繫。甚至，腦機接口的發展還會讓更多的人有可能突破人類自身的局限，讓意識的疆界不斷拓展。

來源：學術經緯