Hey Siri，把這個boss打一下：基於音頻的遊戲代理

大數據文摘專欄作品

作者：Christopher Dossman

編譯：笪潔瓊、fuma、雲舟

嗚啦啦啦啦啦啦啦大家好，本周的AIScholar Weekly欄目又和大家見面啦！

AI ScholarWeekly是AI領域的學術專欄，致力於為你帶來最新潮、最全面、最深度的AI學術概覽，一網打盡每周AI學術的前沿資訊。

每周更新，做AI科研，每周從這一篇開始就夠啦！

本周關鍵詞：音頻生成模型、端到端的音視頻語音識別、張量計算

本周熱門學術研究

地表最強語音活動檢測（rVAD）

為了開發用於語音活動檢測的強大算法，研究人員設計了rVAD。新方法先使用了兩個去噪通道，然後再添加語音活動檢測（VAD）算法。

第一遍檢測涉及語音信號中的高能段，其通過使用後驗信噪比（SNR）加權能量差來檢測。如果在段內沒有檢測到音調，則將其視為高能噪聲段並設置為零。

在第二遍檢測中，該方法通過語音增強對語音信號進行去噪。該方法進一步評估了RedDots 2016挑戰數據庫中的數據以驗證性能。結果證明了rVAD相比傳統方法具有競爭力。

我們都需要更好、更有效的AI算法。更精確的VAD方法有助於AI社區實現性能更好的語音通信系統。談話語音識別，語音編碼，說話人識別，回聲消除，音頻會議，免提電話等應用均可從中獲益。

這一研究還提出了rVAD方法的修改版本（rVAD-fast），它顯著降低了計算複雜性，並給予了算法在處理大量數據和運行於資源受限設備上時的優勢。

原文：

https://arxiv.org/abs/1906.03588

學習從音頻提示中玩電子遊戲

Game AI Research Group已經在現有代理（和基於視覺的遊戲）的現有框架內開發了一個音頻遊戲API。該研究是聚焦於訓練遊戲代理僅通過音頻線索玩電子遊戲的初步實驗。

研究人員擴展了視頻遊戲描述語言，引入了音頻的描述規範，並且使用通用視頻遊戲AI框架（General Video Game AI Framework）提供新的音頻遊戲和API，以訓練代理利用音頻進行觀察。他們分析了遊戲和音頻遊戲的設計過程，並使用簡單的QLearning代理得到了初始結果。

這一研究提供了遊戲中的背景音頻分析。研究的結果可以與其他方法結合使用，以最大化傳感器使用，並獲得卓越的遊戲音頻性能。這項工作提出了許多新的研究方向。人工智能社區可以在該領域做進一步的研究。

例如，可以進一步分析聲音以創建適當的響應。它們也可以幫助確定特定聲音的含義。此外，通過觀察某些特定的聲音如何影響代理性能以及如何被刪除，可以提高工作質量。

原文：

https://arxiv.org/abs/1906.04027

組會又睡過去了？ BERT幫你提取講座的文本摘要

最近，通過深度學習方法的機器學習已經證明通過聚類輸出嵌入可以有效地進行提取總結。這項研究工作主要使用深度學習技術和基於python的RESTful講座摘要服務。該服務利用BERT模型進行文本嵌入和KMeans聚類，從而能夠識別關閉到質心的句子並進行摘要選擇。

這一工作的目的是為學生提供一種服務，可以根據他們想要的句子數量來總結講座內容。該服務還包括講座和摘要管理，可以在雲上存儲和協作。

除文檔摘要外，該技術還可廣泛應用於搜索引擎，圖像和視頻集等領域。研究結果非常有希望實現動態提取講座摘要，但仍有改進的余地。

代碼：

https://github.com/dmmiller612/lecture-summarizer

原文：

https://arxiv.org/abs/1906.04165

基於動態詞匯表的詞級語音識別

Facebook人工智能研究（小組）提出了一種帶有動態詞匯表的直接到詞的詞序列模型。該模型從字元標記中動態構建單詞嵌入，可以與任意序列模型無縫集成，包括連接型時間分類模型和注意力編碼-解碼模型。

該算法還可以在語音識別子詞級模型的基礎上實現單詞錯誤率的降低。此外，研究人員還證實，我們所學習的詞級嵌入包含重要的聲學信息，這使得它們更適合用於語音識別。這種新的直接對單詞的方法，具有預測訓練時沒有出現的單詞的能力，並且不需要重新訓練。

直接預測單詞的能力對於實現更簡單、更魯棒的端到端自動語音識別(ASR)系統並同時實現超高的準確性和效率將具有重要的意義。

原文：

https://arxiv.org/abs/1906.04323

基於自注意力的音樂標簽深層序列模型

卷積遞歸神經網絡(CRNN)目前在文檔分類、圖像分類、音樂轉錄以及自動音樂標簽等方面都非常成功。研究人員現在提出了一個基於自注意力的音樂標簽深層序列模型。

該模型由淺卷積層和堆疊遷移編碼器組成。與使用完全卷積或遞歸神經網絡的傳統方法相比，新的體系結構更具解釋性。使用MagnaTagATune和Million Song數據集（自動音樂標記研究數據集）對模型進行評估，可以得到具有競爭力的結果。該模型還演示了標簽貢獻可視化熱圖的可解釋性。

這一模型獲得了更好的可解釋性，從而獲得更好的直覺以進行模型設計。而且，由於提出的架構不是特定於任務的，因此可以擴展到其他MIR任務，包括節拍檢測、節奏分類或音樂轉錄等。

詳細代碼請見：

https://github.com/minzwon/self-attention-music-tagging

原文：

https://arxiv.org/abs/1906.04972

其他爆款論文

新的姿態估計方法，可以幫助設計機器人系統，具有與不屬於預先定義類別的野外新對象互動的能力：

https://arxiv.org/abs/1906.05105

可區分的射影算子，可用於PrGAN學習更好的三維生成模型：

https://arxiv.org/abs/1906.04910

社會人工智能數據集發布，通過計算的方法幫助理解人類社會互動：

https://arxiv.org/abs/1906.04158

生成模型如何能夠捕獲多個樣本上的分布，並使用采樣生成各種樣本：

https://arxiv.org/pdf/1906.04233.pdf

研究人員利用可變嵌入容量進行魯棒語音合成：

https://arxiv.org/abs/1906.03402

AI新聞

人工智能可否幫助人們更清楚地了解社會以及如何影響自然世界?

https://www.forbes.com/

專欄作者介紹

Christopher Dossman是Wonder Technologies的首席數據科學家，在北京生活5年。他是深度學習系統部署方面的專家，在開發新的AI產品方面擁有豐富的經驗。除了卓越的工程經驗，他還教授了1000名學生了解深度學習基礎。

LinkedIn：

https：//www.linkedin.com/in/christopherdossman/

志願者介紹