酷科技！美學者精準解析人類發音，使失語者恢復“原音”

霍金在NASA做講座。（圖源：NASA.org）

撰文 | 計永勝

責編 | 葉水送

語言是人類最基本的交流方式。遺憾的是，世界上有很多人並不能正常地進行語言表達，如神經功能失調（Neurological Disorder）患者最嚴重的後果之一就是語言能力喪失。

據世界衛生組織統計，全球60歲及以上人群約有20%受精神神經失調的困擾 [1]。讓語言功能喪失者發聲是科學家一直追求的目標。

借助特殊儀器設備可彌補一些人的語言能力缺失。最熟悉的例子就是霍金的輪椅。霍金因患有肌肉萎縮性側索硬化症（又名“漸凍症”）而失去語言表達能力，只能通過選擇輪椅顯示器上的單詞拚成句子，經由語音合成器發出聲音來傳達自己的觀點。

但這類設備最主要的問題就是過程繁瑣，說話太慢，遠不及正常人的交流速度。那麽，能否將人的腦部活動直接轉換為聲音信息呢？

答案是可以的。腦-機接口技術（brain-computer interface，BCI）可獲取人大腦的電波信號。2014年，美國西北大學Marc W. Slutzky 團隊通過該技術同時記錄人的發音信號和腦電波信號，將美式英語中的音素（Phoneme，區分單詞的最小語音部門）與腦電波做了一一對應 [2]。

腦電波與音素的對應研究。（圖源：參考文獻2）

但言語表達不只是一個簡單的聲波傳遞過程，更需要人精確地控制氣流以及多個發聲器官的完美配合。

2018年，加州大學舊金山分校神經外科學系教授 Edward F. Chang 的研究團隊記錄了人說話時的腦部信號和聲道不同部位（舌頭、嘴唇、下顎和喉部）的動作，並對二者進行了對應，獲得了一系列發音運動軌跡（Articulatory Kinematic Trajectories，AKTs）數據 [3]。

Edward F. Chang 團隊關於腦信號和發音動作的研究。（圖源：Chang Lab, UCSF）

那麽，能否再進一步把腦活動、聲道動作變化和語言進行整合，將腦電波解碼為語音信息呢？

可將神經活動轉碼為語言的人工語音合成系統。（圖源：參考文獻4）

最近，Chang的研究團隊開發了一套“兩步法”人工語音合成系統，可將大腦神經活動解碼合成為言語聲音。相關研究於2019年4月25日發表於《自然》雜誌 [4]。

所謂“兩步法”，就是科研人員首先將受試者的腦部活動轉錄為發聲動作信息，然後將發聲動作信息解碼為聲音信息進行語言合成。

“兩步法”將腦信號解碼為聲音信號。（圖源：參考文獻4）

研究具體是怎麽進行的呢？科研人員請參與研究的五名志願者大聲地朗讀幾百個句子，同時記錄下他們大腦皮層的活動信號。隨後，研究人員將大腦活動信號轉碼為發聲部位（舌頭、嘴唇、下頜和喉部）的動作變化信號。最後，科研人員將動作變化信號進一步解碼為聲音信號傳出。

研究發現，解碼聲音與原聲音的聲譜特徵具有很高的相似性。科研人員還對合成語音的清晰度進行了檢測。結果顯示，聽者在聆聽101段合成語音後，能比較輕鬆準確的辨識其中的單詞和句子。同時，與將神經信號直接一步轉碼為語音（還原原音）相比，“兩步法”解碼系統對語音內容的保真度更高，這種優勢隨著轉碼語音時間的延長而更加明顯。

隨後研究人員請一名志願者朗讀了58個句子，結束後緊接著對原句進行了默讀，只有動作，沒有聲音。有趣的是，“兩步法”解碼系統合成的默讀聲譜與合成的朗讀聲譜特徵相似。

雖然默讀的整體語音合成效果遜色於有聲閱讀，但論文作者認為“兩步法”系統可以對無聲言語的重要特徵進行解碼。換句話說，“兩步法”解碼系統可以識別發聲者的唇語，做到“你張張嘴，我就知道你要說什麽”。

同期《自然》雜誌還刊發了埃默裡大學教授 Chethan Pandarinath 和佐治亞理工學院教授Yahia Ali關於該論文的新聞與觀點文章。他們表示，Chang 的團隊“兩步法”解碼系統從語音合成精確度和聽眾辨識度兩方面對腦電波解碼為語言的概念進行了有力的驗證，但“如果語言環境比較複雜的話，（通過神經信號）直接合成語音的效果可能會和‘兩步法’平分秋色，甚至優於‘兩步法’”，而且當前合成語言的清晰度與正常對話差距還是比較大，腦-機接口技術實際應用於臨床仍面臨很多挑戰。

兩位評論者最後指出，“隨著不斷努力，我們希望有語言障礙的人能重新獲得自由表達想法的能力，與周圍的世界重新鏈接”。

主要參考文獻：

[1] Mental health of older adults, https://www.who.int/en/news-room/fact-sheets/detail/mental-health-of-older-adults.

[2] Emily M. Mugler, James L. Patton, Robert D. Flint. et al, Direct classification of all American English phonemes using signals from functional speech motor cortex. J Neural Eng. 2014 June; 11(3):035015. doi:10.1088/1741-2560/11/3/035015.

[3] Chartier, J., Anumanchipalli, G. K., Johnson, K. & Chang, E. F. Encoding of articulatory kinematic trajectories in human speech sensorimotor cortex. Neuron98, 1042–1054 (2018).

[4] Anumanchipalli, G. K., Chartier, J. & Chang, E. F. Speech synthesis from neural decoding of spoken sentences. Nature 568, 493–498 (2019).

製版編輯 | 皮皮魚