每日最新頭條.有趣資訊

多人德撲AI、手機GPU上的亞毫秒級人臉識別

機器之心整理

參與:一鳴

本周有挺多重要的研究成果。數天前 CMU、Facebook 公布 AI 玩多人德州撲克取得的新進展,該研究登上了 Science。此外,谷歌部落格、arXiv 上均有較受關注的全新論文,例如移動設備 GPU 上運行的亞毫秒級人臉檢測模型 BlazeFace。

1.標題:Superhuman AI for multiplayer poker

作者:Noam Brown,Tuomas Sandholm

鏈接:https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

摘要:近幾年,AI 研究取得了很大的進展,特別是在各種遊戲中。撲克遊戲就是其中一種。過去 AI 的基準成績總是在雙玩家的條件下取得的。然而,撲克在傳統上是一個超過兩個玩家的多人遊戲。多人遊戲總是比雙人遊戲帶來更多的問題,而解決這些問題也被視為是 AI 研究的里程碑。在本文中,研究人員提出了一個名為 Pluribus 的 AI。AI 在六人無限德克薩斯撲克遊戲中,超過了頂級人類玩家的水準。

推薦:AI 在多人德州撲克遊戲上戰勝了人類頂級玩家,每小時贏 1000 美元,而且訓練只需要一個雲計算伺服器,不用 GPU,耗費不到 150 美元。論文已登「Science」。

2.標題:Adversarial Objects Against LiDAR-Based Autonomous Driving Systems

作者:Yulong Cao, Chaowei Xiao, Dawei Yang, Jing Fang, Ruigang Yang, Mingyan Liu, Bo Li

鏈接:https://arxiv.org/pdf/1907.05418.pdf

摘要:深度神經網絡(DNN)容易受到對抗樣本的攻擊,這一點已經被許多研究所證明。為了證明這種攻擊在現實世界構成威脅,一些研究提議生成能夠迷惑分類器識別停車標誌的實體貼紙或可列印貼圖,如特斯拉對抗攻擊實驗。但是,自動駕駛系統並不僅僅是圖像分類器。為了獲得更清晰的感知影像,大多數自動駕駛檢測系統配備有雷射雷達或普通雷達(無線電探測與測距)設備,這些設備能夠借助於雷射束直接探查周圍 3D 環境。這就提出了一個疑問:貼圖干擾是否會影響雷射雷達掃描的點雲?

為了回答這一問題,研究者提出了一種基於優化的方法——LiDAR-Adv,以生成可以在各種場景下規避雷射雷達檢測系統的對抗樣本,從而揭露雷射雷達自動駕駛檢測系統的潛在漏洞。

研究者首先使用一種基於黑盒進化的算法展示了相關漏洞,接著使用基於梯度的方法 LiDAR-Adv 探索強大的對抗樣本造成的影響有多大。

為了評估 LiDAR-Adv 在現實世界中的影響,研究者對生成的對抗樣本進行 3D 列印,並在百度阿波羅自動駕駛平台上測試它們。結果顯示,借助於 3D 感知和產品級多階段檢測器,他們能夠誤導自動駕駛系統,實現不同的對抗目標。

推薦:密歇根大學、UIUC 聯合百度使用 3D 列印的物體制作對抗樣本,可以有效欺騙自動駕駛車輛的三維傳感器。論文說明,即使是使用昂貴的雷射雷達也不一定保險,提升算法本身的魯棒性才是解決方法。

3.標題:BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs

作者:Valentin Bazarevsky , Yury Kartynnik , Andrey Vakunov, Karthik Raveendran , Matthias Grundmann

鏈接:https://arxiv.org/pdf/1907.05047

摘要:研究人員在論文中提出了一種名為「BlazeFace」的人臉識別檢測器。這一模型輕量化且性能很好,可以在移動設備 GPU 中進行推斷,運行硬體是速度為 200-1000+ FPS 的旗艦設備。這樣一種模型可以應用在任何需要精確人臉區域的擴增實境任務上,包括 2D/3D 面部關鍵點或幾何預估、面部特徵或表情識別,和面部區域分割等。

論文的貢獻包括:一個受 MobileNetV1/V2 但和模型不同的輕量級的特徵抽取網絡,一個對 GPU 友好的模型方案,由 Single Shot MultiBox Detector (SSD) 方案改進而來,以及一個提升後的,用於替代非最大化壓縮的聯合分辨率策略。

推薦:輕量化、快速且準確的人臉識別模型一直是研究的重點。谷歌的研究人員提出了一種隻使用移動設備 GPU 就可以運行的模型,識別極為快速。有了這樣的模型,下遊相關的擴增實境移動端應用可以進一步發展起來了。

4.標題:Multilingual Universal Sentence Encoder for Semantic Retrieval

作者:Yinfei Yang, Amin Ahmad

鏈接:https://ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html

摘要:研究人員提出了三種全新的通用句編碼器(Universal Sentence Encoder)多語言模塊,模塊增加了一些額外的特性和,擴展了其應用的潛在可能。前兩種模塊提供了多語言模型,用於提取語義相似的文本。第一種模型的優化目標是提取性能,另一種則是更快的速度和更小的記憶體使用。第三種模型則專門用於 16 種語言的抽取型問答任務上,這是通用句編碼器的一種全新應用。這三種多語言模塊都使用多任務雙重編碼器框架訓練,這和原本的英語通用句編碼器是一樣的。但是研究人員開發了一種技術,使用附加性邊緣 softmax(additive margin softmax)提升雙重編碼器的性能。這種技術不僅可以保證遷移學習的良好表現,在語義提取任務中也表現良好。

推薦:通用句編碼器相比於詞向量等可以更好的轉換為句子級別的表征,在涉及句相似度的抽取任務中有著廣泛的應用。谷歌部落格提到的這篇論文將通用句編碼器的方法擴展到了多種語言,並且擴展到了問答任務——一個之前通用句編碼器研究中未涉及的領域。

5.標題:Benchmarking Model-Based Reinforcement Learning

作者:Tingwu Wang、Xuchan Bao、Ignasi Clavera、Jerrick Hoang、Yeming Wen 等

鏈接:https://arxiv.org/pdf/1907.02057v1.pdf

摘要:人們普遍認為,基於模型的強化學習(MBRL)可能比無模型(model-free)RL 具有更強的樣本效率。但是,基於模型的 RL 研究還不是那麽的規範化。所以,研究者常常在自設計環境下進行實驗,並且分為幾個獨立的研究方向,這些方向有時是閉源或者可複現的。因此,一個待解決的問題是,現有這些不同的 MBRL 算法相互之間如何執行任務。

為了促進 MBRL 方面的研究,研究者在本文中收集了一系列 MBRL 算法,並提出了特別為 MBRL 設計的 18 種基準測試環境。通過統一的問題設置(包括噪聲環境),研究者對這些算法進行了基準測試。除編目性能(cataloguing performance)外,研究者探索並統一了不同 MBRL 算法之間的潛在算法區別。他們描述了未來 MBRL 研究的三項關鍵性挑戰:動態瓶頸、規劃時軸(planning horizon)困境和提前終止困境。

推薦:基於模型的強化學習研究一直缺乏標準性的基準測試,對於複現模型或性能研究造成了阻礙。多倫多大學聯合 UC 伯克利,對一些強化學習模型進行了基準測試,總體性的回顧了基於模型的強化學習方法,不失為入門學習多種強化學習模型,了解模型測試基準的重要參考資料。

6.標題:Playing Go without Game Tree Search Using Convolutional Neural Networks

作者:Jeffrey Barratt、Chuanbo Pan

鏈接:https://arxiv.org/pdf/1907.04658.pdf

摘要:眾所周知,圍棋(Go)遊戲在東亞國家具有很長的歷史,但直到最近幾年,計算機圍棋(Computer Go)的表現效果才趕上人類玩家。圍棋的規則雖然簡單,但遊戲的策略和組合卻極其複雜。即使是在過去幾年,依賴神經網絡來評估盤面狀態的新程序每秒鐘依然可以探索到比職業玩家多很多量級的盤面狀態。

在本文中,研究者意圖通過創建卷積神經策略網絡在遊戲中模擬人類直覺,在不需要任何樹搜索的情況下,這種方法帶來的遊戲效果應該可以達到或超過大多數人類玩家的水準。他們介紹了三種旨在創建強大圍棋玩家的結構和訓練方法:非矩形卷積(更好地學習盤面上的情勢)、監督學習(在包含 53000 場職業圍棋遊戲的數據集上訓練)和強化學習(在不同網絡版本下進行的遊戲中訓練)。結果表明,在僅使用監督學習的情況下,研究者提出的網絡就已經超過了中等水準業餘玩家的技戰水準。非矩形卷積和強化學習的進一步訓練和實現也將進一步提升計算機圍棋水準。

推薦:雖然 AlphaGo 等 AI 已經在圍棋上超過人類頂級選手的水準,但其依賴樹搜索的方法,需要大量的時間進行學習,消耗極大的算力資源。史丹佛大學的研究人員提出了一些深度學習的方法,在隻依靠監督學習情況下就達到了人類玩家的水準。

7.標題:Unsupervised Data Augmentation for Consistency Training

作者:Qizhe Xie、Zihang Dai、Eduard Hovy、Minh-Thang Luong、Quoc V. Le

鏈接:https://arxiv.org/pdf/1904.12848

摘要:在本文中,研究者提議在半監督學習環境中將數據增廣應用於未標注數據。他們將提出的方法稱為無監督數據增廣或者 UDA,該方法促使模型預測在未標注樣本和增廣未標注樣本之間保持一致。不同於以往採用高斯噪聲(Gaussian noise)或 dropout 噪聲等隨機噪聲的方法,UDA 出現一點小的變化,它採用了 SOTA 數據增廣方法產生的更大且更真實噪聲。即使是在標注集極小的情況下,這一小的變化也使得 6 項語言任務和 3 項視覺任務的效果呈現重大改善。

例如,在 IMDb 文本分類數據集上,UDA 僅使用 20 個標注樣本就實現了 4.20% 的誤差率,這一數字優於 25000 個標注樣本上訓練的 SOTA 模型。在標準半監督學習基準 CIFAR-10 和 SVHN 數據集上,UDA 超越了以往所有的同類方法,其中僅使用 4000 個樣本在 CIFAR-10 數據集上實現了 2.7% 的誤差率,僅使用 250 個樣本在 SVHN 數據集上實現了 2.85% 的誤差率,這些數字幾乎與全集(較 CIFAR-10 和 SVHN 數據集大一到兩個數量級)上訓練的模型性能相當。此外,UDA 在 ImageNet 等大規模數據集上的表現也非常好。當使用 10% 的標注集訓練時,UDA 將 top-1/top-5 準確率從 55.1/77.3% 提升到 68.7/88.5%。對於擁有 1.3M 額外未標注數據的全 ImageNet 數據集來說,UDA 將性能從 78.3/94.4% 進一步提升到 79.0/94.5%。

推薦:這篇 Quoc V. Le 等的新論文提出了一種數據增強方法,在使用極少數據樣本的情況下,達到了依賴大量數據訓練才能得到的 SOTA 水準。這樣的數據增強方法可以進一步啟發在 few-shot 和 zero-shot 中的模型研究,進一步減少深度學習模型對數據的依賴。

獲得更多的PTT最新消息
按讚加入粉絲團