腦機接口？最強讀心術？真相不是你想的那樣

一項研究顯示，人工智能（AI）可以從人類聽覺皮質區的神經活動直接還原語音。但這並不意味著AI能“讀心”。

1月上旬，三個國際科研小組嘗試破譯大腦的語言信號。他們使用大腦數據訓練出了一種人工智能系統，可以將大腦活動數據轉化成語音，轉化準確率約在40%-80%之間。儘管三個科研小組均表示，收集大腦的活動數據十分艱難，到了2月上旬，這一研究成果仍被不少人解讀為“AI讀心術”的開始，甚至“有望實現腦機接口，使失語者重新開口說話”。

此前，澎湃新聞已做過相關報導，該研究還處於早期階段，只能收集並解讀人們說話時的大腦資訊，尚不能為完全喪失語言功能的人服務。這是因為就目前的技術而言，大腦相關資訊的收集需要借助外部聲音的產生。

說話者說出的話以聲波的形式，通過介質傳到聆聽者耳朵內的鼓膜，鼓膜振動，通過聽小骨放大之後傳到內耳，刺激耳蝸內的纖毛細胞，從而產生神經衝動。神經衝動沿著聽神經傳到大腦皮層的聽覺中樞，形成聽覺。

形成聽覺的過程是順而有序的。因此，研究人員通過收集人類大腦聽覺皮質區的神經活動，利用深度學習和語音合成算法，重構出了受試者的聽覺刺激。這一研究結果於1月下旬刊登在《自然》雜誌的子刊《科學報告》（Scientific Reports）上。

《科學報告》創刊於2011年，是頂級期刊《自然》雜誌的子刊，采取在線發表的形式，實行開源製（Open Access），關注生物學、化學、物理和地球科學在內所有自然科學領域的初步研究。2017年，《科學報告》的影響因子為4.122；同為《自然》雜誌子刊的《自然-生物技術》（Nature Biotechnology）影響因子為35.724。

重構聽覺刺激，是指從誘發神經活動的群體中，找到聽覺刺激的最佳近似值，是一種逆向的映射技術。這項研究將從人類聽覺皮質區記錄的神經反應中重構原始的語言刺激。

該研究的五名受試者是正在接受癲癇治療但具有正常聽力的患者，研究人員使用皮層腦電圖（ECoG）的植入式腦-機接口，測量患者在聽到連續語音時的神經活動。

美國神經科學家菲利普·肯尼迪（Philip Kennedy）的電極草圖。肯尼迪是世界上第一位將電極植入到人大腦中的科學家。1998年，在獲得美國食品及藥物管理局（FDA）的臨床批準後，肯尼迪將一個特製的電極植入全癱的病人中。通過數月的訓練，病人可以通過集中注意力地想象，來控制滑鼠運動。

五個受試者中有兩個受試者的左腦被植入了高密度硬膜下網格電極，主要覆蓋在顳上回（STG）。五個受試者中有四個被植入了深度電極，可覆蓋聽覺皮區（Heschl氏回）。

隨後，這五名受試者只需要聽聲音，腦機接口會用模型重建語言資訊，最後由電腦讀出來。受試者收到外界的語音刺激後，大腦聽覺皮層的神經網絡開始活躍，神經電信號同時被植入腦中的電極接收。這些信號被收集起來，研究人員從中提取有效的資訊，包括低頻（LF）信號和高γ包絡（HG）。最後根據這些信號重建聲音。

為了更精準地重構語音，研究人員使用了兩種回歸模型和兩種聲學表示形式，探究兩兩組合共四種組合形式下，哪種重構方式的效果最好。這四種組合分別是：線性回歸+聽覺圖譜（Aud Spec）；線性回歸+聲碼器（Vocoder）；非線性深度神經網絡（DNN）+聽覺圖譜；和非線性深度神經網絡+聲碼器。

受試者聽到自然語句，其聽覺皮質區因受到刺激而產生神經活動，再利用這一神經活動，重建之前受試者聽到的自然語句。示例對象中的響應電極顯示為紅色。

研究人員比較了低神經頻率範圍和高神經頻率範圍的重建精度。結果顯示，在數字識別任務中，用深度神經網絡模型直接估計所有神經頻率的聲碼器的方法（DNN+Vocoder），獲得了最高的主觀和客觀評分，相比使用線性回歸重構聽覺圖譜的基線處理方法，提高了65％的可理解度。

為了比較重建的音頻效果，11位聽力正常的志願者被要求隨機收聽用四種模型組合重建的音頻效果，並進行打分。

結果顯示，非線性深度神經網絡+聲碼器組合（紅色，DV）的得分最高，為3.4分；其還原度也最高，志願者的正確還原率達到了75%。此外，在志願者對受試者的性別判斷，這一組合的性別正確識別率達到了約80%。

此前已有研究從人類的聽覺皮質區（包括顳上回），成功地解碼了想象發音、重複想象單詞和無聲閱讀等等。這支來自美國哥倫比亞大學的研究團隊認為，重建後的聲音品質差是目前阻礙語音腦機接口系統發展的主要因素。而從人類的聽覺皮質區重建語音，為創造語音神經假體提供了可能。

語音神經假體的最終目標，是找到腦電波與語音的聯繫，從而創造出一種直接與大腦溝通的途徑，使喪失說話能力的人能夠“重新開口”。

對此，聖地亞哥州立大學語言腦動力學實驗室主任Stephanie Riès則表示，人們在默念時產生的大腦信號與說話時的大腦信號並不相同。如果沒有外部聲音的配合，電腦甚至很難分辨出大腦語言信號的起始點。這也意味著，人類距離使用腦機接口和人工智能技術讓失語者“開口說話”的那一天還很遠。