不可能的任務再現，新研究攻破基於音頻的生物識別系統

大數據文摘專欄作品

作者：Christopher Dossman

編譯：Jiaxu、fuma、雲舟

嗚啦啦啦啦啦啦啦大家好，連續兩周拖更的AIScholar Weekly欄目又和大家見面啦！

AI ScholarWeekly是AI領域的學術專欄，致力於為你帶來最新潮、最全面、最深度的AI學術概覽，一網打盡每周AI學術的前沿資訊。

每周更新，做AI科研，每周從這一篇開始就夠啦！

本周關鍵詞：音頻生成模型、端到端的音視頻語音識別、張量計算

本周熱門學術研究

有噪聲音頻識別率低？倫巴第的棺材板要壓不住啦

雖然過去在這一領域中已經提出過幾種音視頻語音識別模型，並一定程度上提高了在有噪聲情況下對純音頻模型的魯棒性，但很少有針對倫巴第效應（Lombard Effect）對純音頻語音識別影響的研究。

最近，學者們首次深入研究了倫巴第效應對端到端音頻、視頻和音視頻語音識別的影響，他們在端到端模型的框架內研究了倫巴第效應，這些模型直接學習從原始圖像和音頻波形中提取特徵。

結果表明，在噪聲倫巴第上訓練和測試的模型性能要高於在一般情況下訓練和測試的模型，這意味著當使用噪聲倫巴第語言進行訓練時，模型有了顯著的改進。

機器學習社區對於深度學習技術的應用在日益加深，這一依舊在訓練過程中對倫巴第語音進行了適當的建模，從而提高了在所有評估實驗中用於音頻、視頻和音頻-視頻語音識別模型的性能，因此，這一方法對於未來實用且強大的音頻-視頻語音識別系統將會非常有價值。

原文：

https://arxiv.org/abs/1906.02112

不可能的任務：基於音頻的生物識別系統面臨被攻破風險

最近，研究人員對一種被忽視的ASV模擬攻擊進行了探究，這一研究還包括一種對人類語音進行修改的方法。研究人員利用音頻數據在實驗中評估了針對語音生物識別系統的攻擊。具體來說，他們從公共語音數據集中使用ASV語音相似性搜索工具尋找聲音最相似的發言者，並使用這一聲音攻擊語音生物識別系統。

世界正在日益數字化，任務正在日益自動化，人與人之間的交流越來越少。我們的時代需要更有效的方法來保護數據不受未經授權的訪問。這項研究工作表明，對於語音的模仿是一種值得引起警惕的針對ASV的攻擊。對於聲音數據被開放的人來說，他們很容易成為模擬攻擊的目標。這一研究可以幫助機器學習社區更好地設計更安全的ASV算法。

原文：

https://arxiv.org/abs/1906.01454

一種新的頻域音頻生成模型

研究人員最近發布了MelNet，這是一種光譜圖生成模型，它將細粒度自回歸模型和多尺度生成過程結合起來，共同捕獲局部和全局結構。他們的工作表明，新的方法能夠產生高保真的音頻樣本，這些樣本在時間尺度上捕獲結構，而時間域模型尚未實現。

MelNet更適合於對長期時間依賴性進行建模，研究人員將MelNet應用於各種音頻生成任務（如無條件語音生成、音樂生成和文本到語音合成）後發現新方法比傳統算法有了顯著的改進。

與以前的模型相比，MelNet更適合於對長期時間依賴性進行建模。研究評估表明，對於各種音頻生成任務，包括端到端無條件語音生成、音樂生成和文本到語音合成等，MelNet都有著良好的效果。

原文：

https://arxiv.org/pdf/1906.01083.pdf

新的風暴已經出現：實時對抗攻擊

聖母大學的研究人員提出了實時對抗攻擊的概念，並演示了如何通過設計一個實時擾動發生器來攻擊基於流的機器學習算法，該發生器使用觀測數據來為未觀察到的數據設計最佳擾動。

他們利用模擬學習和行為克隆算法，通過非實時對抗擾動發生器的演示訓練實時對抗擾動發生器。此外，他們還展示了一個語音命令識別的案例研究。研究結果證明了該方法的有效性。

這一實時模型有可能大大增加對抗性攻擊的現實威脅。從好的方面來說，它可以用來研究和設計防禦策略，以保護實時系統免受實時對抗攻擊。

代碼：

https://github.com/YuanGongND/realtime-adversarial-attack

原文：

https://arxiv.org/abs/1905.13399

基於語音的分類

研究人員最近提出了一個以自我為中心的動作識別音頻模型，並探討了它在名詞、動詞和動作分類中的作用。

該模型是一個VGG網絡，以音頻譜圖為輸入，隻考慮視頻段的前4秒。為了能夠確定這樣的時間間隔，研究人員使用了濾波訓練分割法來計算視頻片段的持續時間。

新模型在標準基線上實現了有競爭力的動詞分類（準確率34.26%）結果。

34.26%的準確率意味著單獨使用音頻就可以在動詞分類上獲得良好的性能。研究結果還表明，音頻可以以多種方式補充類似任務中的視覺資源。

原文：

https://arxiv.org/abs/1906.00634

其他爆款論文

你需要的不只是注意力——一種簡單而強大的基於注意力的常識推理方法：

https://arxiv.org/abs/1905.13497v1

自己動手，做一個想讓他說啥就說啥的川普：

https://arxiv.org/abs/1906.01524

機器人同傳要出現了嗎？端到端的語音翻譯再提升：

https://arxiv.org/abs/1906.01199

一種用於刪除模型中冗余通道參數修剪技術：

https://arxiv.org/abs/1906.01078

AI新聞

最新Google Earth Timelapse發布：

https://ai.googleblog.com/2019/06/an-inside-look-at-google-earth-timelapse.html

谷歌發布全新開源庫，張量計算效率MAX：

https://ai.googleblog.com/2019/06/introducing-tensornetwork-open-source.html

專欄作者介紹

Christopher Dossman是Wonder Technologies的首席數據科學家，在北京生活5年。他是深度學習系統部署方面的專家，在開發新的AI產品方面擁有豐富的經驗。除了卓越的工程經驗，他還教授了1000名學生了解深度學習基礎。

LinkedIn：

https：//www.linkedin.com/in/christopherdossman/

志願者介紹