每日最新頭條.有趣資訊

谷歌開源語音引擎:分享9大語音功能,為長篇對話提供字幕

智東西(公眾號:zhidxcom)編 | 韋世瑋

導語:在各類語音轉錄工具百花齊放的當下,谷歌開源的Live Transcribe將給人們帶來更便捷和新穎的語音體驗。

智東西8月19日消息,近日,谷歌開源了Android語音識別轉錄工具——Live Transcribe的語音引擎,源代碼現在可以在GitHub上獲得。

谷歌希望通過這一方式,能夠讓任何開發者為長篇對話提供字幕,進一步為安卓語音識別轉錄工具的實時轉錄功能提供動力。

一、兩種轉錄方式,覆蓋所有安卓設備

今年二月,谷歌發布了Live Transcribe,該工具通過使用機器學習算法,能將音頻轉換為實時字幕。

與谷歌即將為安卓推出的Live Caption(實時字幕)功能不同,Live Transcribe是一種全屏體驗,它依賴於谷歌雲Speech API(語音應用編程接口),能讓用戶通過智能手機的麥克風或外接麥克風使用。

Live Transcribe實質上是一種交流工具,一方面,它可以用70多種語言和方言來描述實時口語單詞。另一方面,用戶也可以通過輸入文字來進行轉錄。

此外,Live Caption和Live Transcribe還有一個主要的區別。Live Transcribe可以在18億台安卓設備上使用,而Live Caption隻適用於部分Android Q設備。

二、如何解決雲上工作的潛在弊端?

目前,谷歌的Cloud Speech API並不支持發送無限長的音頻流。此外,它依賴雲來使用的特性,也意味著它在網絡連接、數據成本和延遲方面都有潛在問題。

因此,語音引擎會在請求超時之前關閉並重啟,還會在長時間的靜默期間重啟會話,以及在檢測到語音暫停時關閉會話。 在會話期間,語音引擎還會在本地緩衝音頻,當網絡重新連接時便可發送。

基於這些設計,谷歌避免了工具轉錄時會出現截斷的句子或單詞,並減少了對話中丟失的文本量。 為了降低帶寬需求和成本,谷歌還評估了不同的音頻編解碼器,包括FLAC(無損音頻編解碼器)、AMR-WB(新型寬頻語音編解碼器)和Opus(有損音頻編解碼器)。

其中,FLAC可以保持轉錄的準確性,但不能保存太多的數據,並且具有明顯的延遲;AMR-WB能夠節省大量數據,但它在嘈雜環境中的轉錄不夠精確;Opus允許使用比大多數音樂流服務還要低很多倍的數據速率,還能同時保留音頻信號的重要細節。

此外,谷歌還可以在長時間的靜音期間,通過語音檢測來關閉網絡連接。總體而言,谷歌能夠在不影響轉錄準確性的情況下,將數據使用量減少10倍。

為了進一步降低延遲,Live Transcribe使用了自定義Opus編碼器,能提高比特率,使延遲在視覺上無法區分發送但未壓縮的音頻。

三、Live Transcribe的9項語音引擎功能

谷歌列出了Live Transcribe的9項功能文檔,但不包括說話人識別:

1、無限流媒體;

2、支持70多種語言;

3、當用戶在網絡和Wi-Fi之間切換時,可簡化網絡丟失。並且文字只會延遲,不會丟失;

4、對擴展網絡丟失具有魯棒性,即使網絡中斷數小時,仍會重新連接。但沒有連接就無法進行語音識別;

5、可以輕鬆啟用和配置Opus、AMR-WB和FLAC編碼;

6、包含文本格式庫,可用於可視化ASR(自動語音識別)置信度,發言人ID等;

7、可擴展到離線模式;

8、內置支持語音檢測器,可在延長靜音期間內用於停止ASR,以節省資金和數據;

9、內置支持揚聲器識別,可用於根據揚聲器編號標記或著色文本。

該文檔還指出,這些庫與生產應用程序Live Transcribe中運行的庫幾乎相同。谷歌已經對它們進行了廣泛的現場測試和單元測試,但測試本身並不是開源的。

谷歌將為開發人員們提供APK(安卓安裝包),讓他們能夠在不構建任何代碼的情況下試用該庫。

結語:為人們提供更高效和便利的溝通方式

谷歌表示,Live Transcribe是他們與加拉德特大學合作開發的一款應用,專為失聰和聽障用戶打造,而加拉德特大學是美國第一所專為失聰及聽障人士設立的大學。

這款應用的開源對開發人員們來說,也許能進一步為失聰和聽障患者的生活帶來更大的便利。同時對普通人來說,也能幫助人們更快地適應各類新的語言環境,提供更高效的溝通方式。

文章來源:VentureBeat

獲得更多的PTT最新消息
按讚加入粉絲團