每日最新頭條.有趣資訊

亞馬遜Alexa新突破:將縮寫符號秒轉文字,錯誤率降低81%

智東西(公眾號:zhidxcom)編 | 王小溪

導語:亞馬遜的研究人員研究出的AI文本規範系統可代替人工編寫規則,讓文本規範化過程的錯誤率降低81%。

智東西5月18日消息,據外媒報導,亞馬遜的研究人員研究出了新的算法,這種算法能更好地實現文本規範化(Text Normalization,TN),讓Alexa更快、更好地理解不同語言的指令。

文本規範化是指將文本中的數字、符號、縮寫等的不同描述方式轉化為統一的語言文字。舉個簡單的例子,“20%”在英文TTS(text-to-speech synthesis,從文本到語音)系統裡則會被轉換成“twenty percent”。

據研究人員Alexa AI部門應用科學家Ming Sun稱,相比於現有的最佳神經系統,他和同事研究的AI文本規範系統能將文本規範化的錯誤率降低81%,並且還能將延遲時間減少63%。此外,子字單元使AI模型能夠更好地處理以前沒有見過的輸入單詞。

在論文《Neural Text Normalization with Subword Units》中,Ming Sun更細致地呈現了他和同事的研究成果。

一、AI系統可代替人工編寫規則

文本規範化是大多數自然語言系統中的基本處理步驟,它的主要功能是將文本中的數字、符號、縮寫等的不同表達形式轉換成統一的語言文字。

舉個例子,在英語語境下,如果對亞馬遜的語音助手Alexa說:“Book me a table at 5:00 p.m.(在下午5:00給我預訂個餐位)”,這句話中的時間“5:00 p.m.”可能會被語音助手的自動語音識別器轉錄為“five p m”,並進一步轉化為“5:00PM”。再比如,“6:30PM”會被轉化為TTS系統所能識別的“six thirty p m”。

像這種從“5:00PM”到“five p m”的轉化過程被稱為文本規範化,反之則為反向文本規範化。

那麽這些轉化是如何達成的呢?

根據Ming Sun的說法,目前,亞馬遜語音助手依賴於數千條日期、電子郵件地址、數字、縮寫和其他表達的人工規範化規則。這個方法本還不錯,但隨著Alexa所涉及的互動範圍不斷增加,人工編寫規則本質上成為一個很容易出錯的過程。此外,隨著Alexa不斷增加對新的語種的應用,重新編寫規則將是一項巨大的任務。

在論文中研究人員提出,將書面語言規範化為文本語言,存在以下困難:

1.人們很難獲得訓練機器學習模型的監督數據;

2.正如上文例子中顯示的那樣,書面文本具有歧義,在不同的語境轉化可能需要不同的規範化方法。

為此,研究人員研究了一種由機器學習驅動的更具可擴展性的技術。有關該研究的論文將在今年的北美計算語言學協會(NAACL)的會議上展示。

二、新算法將錯誤率降低81%

在論文中,研究人員介紹文本規範化是會話系統中的一個重要步驟。它能將書面語言規範化為文本語言,以促進語音識別、自然語言理解以及從文本到語音的合成。

有限狀態傳感器(FSTs)通常用於構建處理文本規範化的語法。然而,將語言知識翻譯為成機器所能理解的語法需要付出大量的努力。

以往的研究側重於借助有限的詞級語境對一個詞或短語進行規範化,而孫明和劉玉宗在論文中提出的方法是直接對完整的句子進行規範化。

Ming Sun和他的同事們所提出的AI文本規範化系統,是將網絡的輸入和輸出流中的單詞分解成更小的字元串,這種字串符被稱為子字單元(subword units)。這些子字單元能減少機器學習模型必須學習的輸入數據量,並能很好的消除歧義。

他們研究的算法能用來識別最常出現的雙字元單元和三字元單元,直到達到大約2,000個子字元的容量。這些單訓練輸出子字單元的AI系統,最終能拚接成完整的單詞。

研究人員表示,在對來自公共數據集的500,000個示例進行系統訓練之後,與先前所報告的性能最佳的機器學習系統相比,他們研究的系統能將文本規範化的錯誤率降低75%,不考慮詞性、字母大小寫等額外的信息,錯誤率可以降低81%,單詞錯誤率僅為0.2%,並且它還能將系統的延遲時間減少63%。此外,子字單元能使AI模型能夠更好地處理以前沒有見過的輸入單詞。

結語:亞馬遜讓智能語音助手更智能

亞馬遜研究人員提出的新的AI文本規範化系統可改進文本規範化過程,單詞錯誤率僅為0.2%,且能減少系統的延遲時間。

亞馬遜目前一直在改進語音技術,讓智能語音助手能不斷擴大互動範圍,並且可以理解更多種語言,此次技術如果能實現大規模擴散,將會讓其語音助手Alexa變得更加智能。

論文鏈接:https://s3.us-east-2.amazonaws.com/alexapapers/NAACL_HLT_2019_neural_tok_final.pdf

文章來自:Venture Beat

獲得更多的PTT最新消息
按讚加入粉絲團