每日最新頭條.有趣資訊

谷歌AI探索無障礙溝通

Steve Saling 罹患肌萎縮性脊髓側索硬化症(ALS)已有 13 年光景,這是一段人生大門逐漸關閉的過程。

ALS 俗稱漸凍症,發病後肌肉僵硬,抽搐,造成說話或吞咽困難,再逐漸到手臂和腿部無力,最終失去自主控制運動的能力。英國著名物理學家霍金即患此病。Steve Saling 與人交流,是通過眼球追蹤技術來控制計算機上的虛擬鍵盤打字,溝通十分低效。

圖 | 漸凍症患者 Steve Saling(來源:YouTube)

如今,在新技術的幫助下,他在觀看運動賽事的精彩瞬間時,竟然可以發出歡呼。只不過,聲音是通過臉部表情控制機器發出的。通過加入谷歌的 Project Eupho年 項目,Steve Saling 可以自主訓練機器學習模型,當模型更了解他的面部表情,不出聲即可操作 Google Home。

圖 | Steve Saling 正在自主訓練機器學習模型(來源:YouTube)

在 2019 谷歌開發者大會上,失聰設計師 Elise Roy 與谷歌科學家、哈佛教授 Michael Brenner 共同宣布 Project Eupho年 項目。Michael Brenner 博士確信 AI 技術能解決 ALS 患者這一特定的語言障礙問題,但同時也需要大眾的協助,提供更多的聲音樣本供模型訓練。

圖 | 谷歌 Michael Brenner 研究員(來源:YouTube)

生活中的方方面面都涉及到與他人溝通,以及被他人理解。

想象一下,如果旁人難以理解我們的說話或表達方式時,生活會變成什麽樣,是不是會感到不便和心情沮喪?

然而,對上千萬的中風、ALS 、多發性硬化、創傷性腦損傷和帕金森氏症等神經系統疾病而產生語言障礙的人士來說,這就是他們每天都必須面對的情況。

造成語言障礙的成因有很多,有些是聽力受損,有的是腦部控制語言的神經系統受到創傷,還有的是臉部肌肉不受控制,導致發音模糊,含糊不清。

非營利組織 ALS-TDI(美國 ALS 研究機構)的臨床團隊在過去幾年中發現,即使有嚴重發音障礙(語言障礙)的 ALS 患者,也可以被親密朋友和家人理解。這說明,只要有足夠多的聲音樣本,AI 可以學習如何解釋受損的聲音。

看到這一技術實現的可能性後,谷歌在 2019 開發者大會上推出 Project Eupho年,計劃用 AI 來了解語言障礙者的講話方式,例如含糊不清、不完整的講話,從而實現精準的語音轉寫。

此項目的聲音樣本主要通過與 ALS-TDI(美國 ALS 研究機構)與 ALS Residence Initiative(ALS 住宅計劃)合作獲得,錄下 ALS 患者的聲音,然後將錄下的語音轉成聲譜圖,或以更視覺化的圖像方式來呈現聲音。接著計算機用轉錄的聲譜圖拿來訓練模型,以更準確辨識這類非典型的語音。

目前設計的 AI 模型是以典型的 ALS 相關障礙的英語人士為目標對象,相信不久後這項研究將可應用到更大範圍的不同語言障礙人群。

圖 | 谷歌語音研究員 Dimitri Kanevsky(來源:YouTube)

谷歌語音研究員 Dimitri Kanevsky 是一名聽力障礙者,幼年失聰後才開始學的英文,他的主要語言障礙是發音不標準,吐字模糊。

谷歌的語音轉錄程序顯然無法對非標準發音的句子進行高精確識別。於是 Kanevsky 研究員錄入了 15000 條自己的語音數據來對模型訓練,起初效果並不明顯,但在他的堅持下模型終於有了不錯的表現,程序可以很準確識別他的聲音,適應了他講話的方式。

不同語言障礙的人群所需要的技術不同,技術實現的難度也不同,但最終實現的效果是一樣的,理解和被理解。這是人類溝通的快樂源泉。

目前谷歌的 Live Transcribe 轉錄技術也可以作為聽障人士的輔助交流工具。

圖 | Live Transcribe 轉錄過程

此次谷歌開發者大會上,谷歌也推出了 Live Relay 功能,可以讓設備在語音和文本之間進行轉換,語音信息實時轉化成文本,並且以語音的形式轉換回來,可以幫助聽力障礙或失聰人士打電話。

Live Relay 是系統中原生功能,不需要聯網就可以在終端上運行,因此能確保通話的隱私性。

雖然 Live Relay 還在早期研究階段,不過谷歌對 Live Relay 的長期發展十分樂觀,這項技術不光是給語言障礙人群提供方便,未來所有用戶都能因這項服務受益。比如,很多用戶都曾有需要接聽重要電話,但無法離開當下手邊正在進行的事項的經歷,在 Live Relay 的幫助下,用戶不必實際與對方交談,也能隨時隨地通過輸入文本的方式接聽電話,甚至可集成即時翻譯功能,讓用戶能與世界各地的人通話,完全不必擔心語言隔閡。

谷歌 AI 在語音識別和轉錄技術上已達到非常領先的水準,雖然在理解語言障礙者的發音和講話方式還在探索中,但這無疑是離終極目標——無障礙溝通最近的一次。

-end-

參考:

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

(微信號:deeptechchina)

獲得更多的PTT最新消息
按讚加入粉絲團