每日最新頭條.有趣資訊

Google出了一款App,能幫助聽力受損的人自由交流

每一個聽力障礙人士都能擁有自己的「沙利文老師」。

1882 年,一場突如其來的疾病奪走了剛 19 個月的海倫凱勒生活中所有的色彩、聲音、動作。和她的生活一樣,這個塔斯坎比亞小鎮的家庭從此也進入了一個黑暗而寂靜的世界。直到 6 年後,沙利文老師出現在海倫的生活,事情才出現了轉機。在沙利文的幫助下,海倫凱勒不僅學會了盲文閱讀,還在成年後寫下了那句「唯有失聰者才會珍視聽覺」。

這個故事幾乎每個人在小學都已熟悉,因為語文老師們總會布置一篇《讀有感》的命題作文。但並不是所有聽力受損的人都能和海倫凱勒一樣幸運,擁有沙利文的獨特幫助。

目前,在全世界 4.66 億遭遇耳聾和聽力障礙的人士中,只有極少人能支付起與他人進行即時交流時需要採購的手動轉錄服務,如美國的 CART,英國的 Palantypist 或其他國家的 STTR。更多的人,在無聲對話。

為了改變這一情況,2019 年 2 月 4 日,Google 推出了一款全新的基於 App——Live Transcribe 的內測版,這是一款即時轉錄真實世界語音的應用程序,只需使用手機的麥克風即可將其轉換為實時字幕。3 月,其正式在 Play 商店正式上線。

Live Transcribe 使用界面|YouTube 截圖

設計背後:ARS 帶來的實時轉錄

一歲時失聰的俄羅斯人 Dimitri Kanevsky 現在是 Google 的一名科學家。他說話有些吃力,在告訴店員「今天過得不錯」時,詞句之間的停頓明顯。不過,現在他並不需要任何的人工幫助。手機上的 Live Transcribe,正在黑色背景上實時同步店員說的每一個單詞:你想喝點什麽?右上角的小圓圈也不停地變換大小來暗示周圍環境的嘈雜程度。

「Live Transcribe 的轉錄延遲低於 200 毫秒,接近於實時。」該 App 的產品經理 Sagar Salva 對極客公園說。這樣的延時就像 50HZ 的交流電方向的改變一樣,難以察覺,保證了雙方交流的互動性。同時,據 Salva 介紹,它能支持 70 多種語言和方言,覆蓋了世界上 80% 的人群。針對雙語家庭,App 裡還設有在兩種語言間進行快速切換的按鍵。

兩年前,Kanevsky 帶著 30 年的語音識別經驗加入了谷歌的 AI 研究組時,這款產品還未誕生。每次開會 Kanevsky 都需要提前預定 CART 服務,靠字幕員虛擬地加入會議,來將語音對話敲到螢幕上,進行轉錄。Salva 和同事們便設想如何能通過使用現在 Google 的技術來減少 Kanevsky 的準備過程。

Kanevsky 正在使用 Live Transcribe 與服務生進行交流|YouTube

而今,從山景城到台北,這個模型被不斷優化,最終演進成了 Live Transcribe。

在短時間裡開發出全新 App 還是得益於谷歌本身的技術積累。據 Salva 介紹,Live Transcribe 背後的核心技術是谷歌各種語音搜索應用一直在使用自動語音識別(Automatic Speech Recognition,ASR)技術。ASR 主要包含特徵提取、聲學模型,語言模型以及字典與解碼四大部分。簡而言之,其任務是準確、高效的將語音信號轉化為文字信息。目前,YouTube 上準確率極高的實時字幕轉錄便是得益於谷歌這項技術的支持。

Live transcribe:每個人的沙利文老師

但開發過程並非一帆風順。

Salva 說,第一個便是用戶實際使用場景的選擇。他們可以選擇在電腦、平板設備、或者手機等硬體設備上展現轉錄結果,也可以有更大膽的設計。例如,Kanevsky 還嘗試用小型投影設備將轉錄出來的字幕打在 Salva 的 T 恤上。

但對於聽力受損的人來講,勞動力回報以及收入都相對較低。據中國殘聯發布的《2018 年殘疾人事業發展統計公報》,全國城鄉持證殘疾人就業人數為 948.4 萬人,其中靈活就業(含社區、居家就業)254.6 萬人,從事農業種養加 480.1 萬人,幾乎佔了絕大部分。在殘疾人家庭人均可支配收入上也與社會平均水準有較大差距。

考慮到這些原因,在所有智能設備中,Salva 和團隊最終選擇了智能手機:「目前全球已經有 20 億人在使用安卓的手機,這樣的硬體平台選擇是成本最低廉的。」

Sagar Salva|受訪者提供

為了讓較為低配的手機也能使用 Live Transcribe,Salva 和團隊選擇在這款 App 背後使用兩種不同的神經網絡。第一個是在設備上運行神經網絡,主要完成聲音分類的工作,例如嬰兒哭聲、玻璃破碎聲音等。在對這些聲音的實時轉錄中,能夠快速地進行分類和辨析。第二個是用於完成語音轉錄成文字工作的雲端神經網絡模型。

「事實上,在雲端,在 Google 的伺服器上,利用機器學習和這些神經網絡模型進行語音的識別是非常重要的,這意味著這款產品在一些低配的手機上也能夠運行。」Salva 說。「當它在運行的時候,只會消耗大概 4M 左右的記憶體空間。我們做了電量使用優化,單次充電可以使用 10 個小時左右。」

谷歌想做的是讓每個聽力受損的都能真正使用得起這個免費的 App。實際上,這個想法早已有跡可循。

有跡可循:20% 的創新項目

在 2016 年 3 月,Google 就推出了 Accessibility Scanner,這是一款自動化工具,用於評估應用程序,並為視覺和聽覺障礙用戶提供改進方法,例如,通過擴大小型觸摸目標或更改對比度。

2018 年 8 月,Google 又發布了一項新的開放式規範,旨在啟動助聽器的開發,這種助聽器能夠在藍牙低功耗(LE)的 Android 手機上完美運行,充足的低延遲和對電池壽命的影響最小。

這些演進蹤跡的源頭卻是一個偶然。Salva 介紹說,最初 Live transcribe 只是一個 20% 創新項目。20% 是在谷歌內部一個著名的鼓勵文化:鼓勵員工利用 20% 的時間用於創新。比如在一周 5 天的工作中,員工能用 1 天的時間用於研究本職工作外的其他感興趣的項目。如這些創新獲得了進一步的證明,便能獲得推廣、完善的機會,如耳熟能詳的 Google News 和 Gmail 都屬於創新誕生的產物。

當 Live transcribe 誕生後,不僅是 Kanevsky,在谷歌團隊內部其他的聽力受損同事之中也廣受好評。因此,才逐漸走向了 Play 商店。

Salva 正在介紹 Live Transcribe 誕生過程|受訪者提供

在研發過程中,為了減少周圍環境噪音得影響使轉錄效果更好,谷歌還推出了另一款相關的 App:Sound Amplifier。這款應用能夠使用聲音放大器,使音頻更清晰,更容易聽到。可以在 Android 智能手機上使用帶有線耳機的聲音放大器來過濾,增強和放大環境中的聲音。

據世界衛生組織估計,到 2055 年,全世界聽力受損的人數將達到 9 億。雖然不確定那時的醫療是否已經能夠使人們不再受到聽力受損的困擾,但能肯定的是,至少今天正如谷歌所希望的一樣,Live Transcribe 和 Sound Amplifier,正在幫助數億聾人溝通得更清楚。

責任編輯 臥蟲

與 NASA 好奇號火星車首席機械工程師 Dr. Adam Steltzner、搜狗 CEO 王小川、知乎創始人周源、地平線 CEO 余凱、一加手機 CEO 劉作虎、閑魚 CEO 諶偉業、順為資本周航等 30+ 位來自全球頂尖的科學家、企業家、商業創新者和資本力量一起探討對「世界」、對「他人」、對「自己」的「獨立思考」。

2019 年 5 月 24 日 - 25 日,GeekPark Rebuild 2019 科技商業峰會空降成都·中國西部國際博覽城,重磅嘉賓陸續更新中,立即掃描下方二維碼或點擊「閱讀全文」購買 Rebuild 2019 門票,親臨現場!

獲得更多的PTT最新消息
按讚加入粉絲團