每日最新頭條.有趣資訊

CMU、史丹佛等知名AI實驗室、團隊AI成果大盤點

新智元推薦

作者:SIGAI人工智能平台

【新智元導讀】本文總結了2018年裡,學術界各大AI大咖、知名實驗室的傑出成果,包括Hinton、LeCun、吳恩達、谷歌、MIT、UC Berkeley等。

2018年,AI的發展可謂是大步向前。

這離不開學術界的實驗室和科研團隊不懈的努力。本文總結了2018年,各個AI大咖、知名實驗室的傑出成果,包括Hinton、LeCun、吳恩達、谷歌、MIT、UC Berkeley等。

涵蓋AI眾多領域,可謂是AI發展的風向標。

Geoffrey Hinton

Geoffrey Hinton,被稱為“神經網絡之父”、“深度學習鼻祖”,他曾獲得愛丁堡大學人工智能的博士學位,並且為多倫多大學的特聘教授。在2012年,Hinton還獲得了加拿大基廉獎(Killam Prizes,有“加拿大諾貝爾獎”之稱的國家最高科學獎)。2013年,Hinton 加入谷歌並帶領一個AI團隊,他將神經網絡帶入到研究與應用的熱潮,將“深度學習”從邊緣課題變成了谷歌等互聯網巨頭仰賴的核心技術,並將BP算法應用到神經網絡與深度學習。

Hinton在2017年的NIPS會議上提出的膠囊網路,基於一種新的結構,通過與現有的卷積神經網絡(CNN)相結合,在一些圖像分類的數據上取得了非常優越的性能,成為了2018年的發展新趨勢。

2018年4月,Hinton 團隊發布

《Large Scale Distributed Neural Network Training Through Online Distillation》(https://arxiv.org/pdf/1804.03235.pdf ),通過online distillation進行大規模分布式神經網絡訓練。該工作提出了Codistillation的概念,通過大規模實驗,發現codistillation方法提高了準確性並加快了訓練速度,並且易於在實踐中使用。

在11月發表的《DARCCC:Detecting Adversaries by Reconstruction from Class Conditional Capsules》(https://arxiv.org/abs/1811.06969?context=cs )中,他的團隊提出重構網絡可以視作檢測對抗性攻擊的非常有效的方法:從獲勝的頂層膠囊的身份和姿態參數中重構輸入,以驗證網絡能夠感知我們期望它從某個類的典型樣例中感知的東西。

Yann LeCun

Yann LeCun 是美國工程院院士、Facebook前人工智能研究院院長、紐約大學Sliver教授,同時還兼職於科學數據中心,數學科學交流學院,神經科學中心,以及電子工程計算機系。他於2003年加入紐約大學,之後還在普林斯頓的NEC研究院短暫任職。在2012年,他創建了紐約大學數據科學中心,並擔任主任。2013年底,他被任命為Facebook人工智能研究總監, 並繼續在紐約大學做兼職教授。2015-2016年,他在巴黎法蘭西工學院做客座教授。Lecun創立的卷積網絡模型,被廣泛地應用於計算機視覺和語音識別應用裡,也因此他被稱為卷積網絡之父,是公認的世界人工智能三巨頭之一。

2018年4月,Yann LeCun 等人發表了一篇針對未來實例分割預測的論文《Predicting Future Instance Segmentation by Forecasting Convolutional Features》(https://arxiv.org/abs/1803.11496)。該論文提出了一種預測模型,可通過預測卷積特徵來對未來實例分割進行預測。

前不久,Lecun等人在論文《Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic》(http://arxiv.org/abs/1901.02705v1 )中提出通過隨多個時間步驟展開環境動態學到的模型來訓練一個策略的方法,同時明確地懲罰了兩個成本:優化策略時的原始成本;表示訓練狀態離散的不確定成本。最後,研究人員使用大規模駕駛行為數據集對此方法進行了評估,結果顯示能夠從存粹的觀察數據中有效學習駕駛策略,不去要環境互動。

Yoshua Bengio

yoshua bengio,蒙特利爾大學(Université de Montréal)的終身教授,同時是蒙特利爾大學機器學習研究所(MILA)的負責人,是CIFAR項目的負責人之一,負責神經計算和自適應感知器等方面,又是加拿大統計學習算法學會的主席,是ApSTAT技術的發起人與研發大牛。Bengio在蒙特利爾大學任教之前,是AT&T貝爾實驗室&MIT的機器學習博士後。他的主要貢獻在於他對循環神經網絡(RNN, Recurrent Neural Networks)的一系列推動,包括經典的neural language model,gradient vanishing 的細致討論,word2vec的雛形,以及machine translation。Bengio是Deep Learning一書的合著者,且Bengio的”A neural probabilistic language model”論文開創了神經網絡的語言模型 language model先河,裡面的思路影響了之後的很多基於神經網絡做NLP的文章。

9月份,Bengio 等研究者在論文《Learning deep representations by mutual information estimation and maximization》提出了 Deep INFOMAX(DIM)(https://arxiv.org/abs/1808.06670v2 )。該方法根據信息內容和統計或架構約束來學習表示,可用於學習期望特徵的表示,並且在分類任務上優於許多流行的無監督學習方法。他們認為,這是學習好的和更有條理的表示的一個重要方向,有利於未來的人工智能研究。

10月份,Bengio 研究團隊提出了一種稱為 BabyAI 的研究平台,支持將人類加入到語言學習的基本循環中。BabyAI 平台由難度遞增的 19 個層級組成。支持智能體獲取具有豐富組合的合成語言,並提供了用於模擬人類教師的啟發式專家。

NIPS2018中,Bengio的《Dendritic cortical microcircuits approximate the backpropagation algorithm》(http://papers.nips.cc/paper/8089-dendritic-cortical-microcircuits-approximate-the-backpropagation-algorithm.pdf ),介紹了一個簡化的樹突室的多層神經元網絡模型,其中錯誤驅動(error-driven)的突觸可塑性使網絡適應一個全面性的期望輸出。這個框架框架與最近觀察到的大腦區域和皮質微電路結構之間的學習是一致的。

Bengio 等研究者在前不久的最新論文《Quaternion Recurrent Neural Networks》中,提出了一種新的四元循環神經網絡(QRNN)以及相應的四元長短期記憶網絡(QLSTM),將四元代數的外部關係和內部架構依賴性皆考慮在內。實驗證明,與 RNN 和 LSTM 相比,QRNN 和 QLSTM 都在自動語音識別等實際應用中達到了更好的性能。

吳恩達Andrew Ng

吳恩達,華裔美國人,是史丹佛大學計算機科學系和電子工程系副教授,人工智能實驗室主任。吳恩達是人工智能和機器學習領域國際上最權威的學者之一。吳恩達也是在線教育平台Coursera的聯合創始人(with Daphne Koller)。

2018年5月,吳恩達團隊在MURA數據集上發起了一項深度學習挑戰賽, 這個數據集是他們團隊在2018年1月開源的一個骨骼 X 光片的大型數據集,總共有 40561 份多視圖放射線影像。

7月的時候,該團隊開發出了一種使用人工智能來預測病人死亡時間的系統,該系統可以為病人提供更好的臨床關懷。研究人員提出了一種新的預報檢驗方法 Survival-CRPS,通過優化連續分級概率評分(continuous ranked probability core, CRPS)來提高預報的銳度(sharpness, 評價模式預測極值的傾向),同時保持預報的校準度(calibration, 評價模型預測值的數值大小和結局事件發生概率的大小是否一致)。這是科學界首次將最大似然法之外的評分方法成功應用於大型生存預測任務。

11月底,團隊發布了一個名為CheXNeXt的X光診斷算法。與曾經的肺炎檢測專門算法不同,該模型可以診斷14種疾病,包括肺炎、胸腔積液、肺腫塊等等。在其中10種疾病的診斷上,AI都與人類放射科醫生的表現相當,還有一種超過了人類。並且,AI的診斷速度是人類的160倍。團隊說,這樣的算法有希望填補醫療資源的短缺,也可以用來減少人類醫生因為疲勞而導致的診斷錯誤。

11月28日,團隊宣布在《公共科學圖書館》期刊發表關於膝關節磁共振成像的深度學習輔助診斷的最新研究。該團隊表示,他們開發了一種算法來預測膝關節核磁共振檢查中的異常,並測量了在解釋過程中向放射科醫師和外科醫生提供算法預測的臨床效用。

此外在年底的時候,吳恩達又發布了《AI 轉型指南》,面向公司管理層,介紹AI產業轉型的一些方法。

2019年年初,也就是前不久,他們史丹佛團隊又在Nature Medicine上發表了一項研究,開發了一種深度神經網絡,可基於單導程 ECG 信號分類 10 種心率不齊以及竇性心律和噪音,性能堪比心髒病醫生,準確度高達83.7%,超過了人類心髒病醫生的78.0%。

Ian Goodfellow

Ian Goodfellow,人工智能領域的頂級專家,因提出了生成對抗網絡(GANs)而聞名,被譽為“GANs之父”。他從史丹佛大學獲得計算機科學學士、碩士學位以及博士學位。畢業後,Goodfellow加入Google,成為Google Brain研究團隊的一員。然後他離開谷歌加入新成立的OpenAI研究所。Ian Goodfellow 在OpenAI短暫工作後,於2017年3月從OpenAI重回谷歌Goodfellow最出名的是發明了生成性對抗網絡,這是Facebook經常使用的機器學習方法。他也是Deep Learning教科書的主要作者。2017年,Goodfellow被麻省理工學院技術評論評為35位35歲以下的創新者之一。

2018年年初,William Fedus、Ian Goodfellow和Andrew M. Dai在ICLR 2018共同提交的論文中使用 GAN 和強化學習方法在 NLP 中做了自己的探索(https://arxiv.org/abs/1801.07736)

2018年7月,Ian等人提出一種新型對抗攻擊(對抗攻擊通常會使得神經網絡分類錯誤),對神經網絡重新編程,誘導模型執行攻擊者選定的新任務。該研究首次表明了神經網絡驚人的脆弱性和靈活性。(https://arxiv.org/pdf/1806.11146.pdf )。

8月的一篇論文中,和Augustus Odena共同提出了一種新方法覆蓋引導模糊測試(coverage guided fuzzing,CGF),將其應用於神經網絡的測試(https://arxiv.org/pdf/1808.02822.pdf ),該方法能夠自動Debug神經網絡。Goodfellow表示,希望這將成為涉及ML的複雜軟體回歸測試的基礎,例如,在推出新版本的網絡之前,使用fuzz來搜索新舊版本之間的差異。此外開源了名為TensorFuzz的CGF軟體庫。

此外,Ian與團隊的人提出對抗正則化方法(https://arxiv.org/pdf/1807.07543v2.pdf )顯著改善了自編碼器的平滑插值能力,這不僅能提高自編碼器的泛化能力,對於後續任務的表征學習也會大有幫助。

何愷明

何愷明,2003年廣東9名高考狀元之一,本科就讀於清華大學。博士畢業於香港中文大學多媒體實驗室,研究生導師為湯曉鷗。 何愷明與他的同事開發了深度殘余網絡(ResNets),目前是計算機視覺領域的流行架構。ResNet也被用於機器翻譯、語音合成、語音識別和AlphaGo的研發上。

2009年,何愷明成為首獲計算機視覺領域三大國際會議之一CVPR“最佳論文獎”的中國學者。 何愷明作為第一作者獲得了CVPR 2009,CVPR 2016和ICCV 2017(Marr Prize)的最佳論文獎,並獲得了ICCV 2017最佳學生論文獎。

2017年4月,何愷明獲選香港中文大學(中大)工程學院傑出校友。

進入FAIR部門之後,何愷明的動向一直備受關注,在3月份左右,他和FAIR 研究工程師吳育昕提出了組歸一化(Group Normalization)方法,試圖以小批尺寸實現快速神經網絡訓練,這種方法對於硬體的需求大大降低,並在實驗中超過了傳統的批歸一化方法。這篇論文也獲得了ECCV 2018最佳論文(2018年9月13日,ECCV 2018 獲獎論文公布,吳育昕與何愷明合作的《Group Normalization》獲得了最佳論文榮譽提名獎。)

6月19日,CVPR 2018獎項出爐,何愷明獲得本屆大會的 PAMI 年輕學者獎。

8月份的時候,何愷明等多名研究者發表了一項獨特的遷移學習研究,無需數據清洗和手工標記數據,通過訓練大型卷積網絡可以預測數十億社交媒體圖像的hashtag,在圖像分類和目標檢測任務上都得到了迄今最高的精度。

11月22日,何愷明等人在arxiv貼出一篇重磅論文,題為《Rethinking ImageNet Pre-training》,表明ImageNet 預訓練模型並非必須,ImageNet 能做的只是加速收斂,對最終物體檢測的精度或實例分割的性能並無幫助。

陳天奇

陳天奇,華盛頓大學計算機系博士生,研究方向為大規模機器學習。他曾獲得 KDD CUP 2012 Track 1 第一名,並開發了 SVDFeature,XGBoost,cxxnet 等著名機器學習工具,是 Distributed (Deep) Machine Learning Common 的發起人之一。

2018年5月份,陳天奇以及上海交通大學和複旦大學的研究團隊提出一個基於學習的框架(https://arxiv.org/pdf/1805.08166.pdf ),以優化用於深度學習工作負載的張量程序。該研究使用基於機器學習的方法來自動優化張量運算核心並編譯AI工作負載,從而可以將最優的性能部署到所有硬體。實驗結果表明,該框架能夠為低功耗CPU,移動GPU和伺服器級GPU提供與最先進手工調優庫相媲美的性能。

7月12日,陳天奇團隊推出 Versatile Tensor Accelerator(VTA),這是一種開放、通用、可定製的深度學習加速器。VTA是一種可編程加速器,提供了 RISC風格的編程抽象來描述張量級的操作。VTA的設計體現了主流深度學習加速器最突出和最常見的一些特徵,比如張量操作、DMA加載 /存儲和顯式的計算 /記憶體調節。

谷歌:Deep Mind人工智能實驗室

DeepMind位於英國倫敦,是由人工智能程序師兼神經科學家戴密斯·哈薩比斯(Demis Hassabis)等人聯合創立,是前沿的人工智能企業,其將機器學習和系統神經科學的最先進技術結合起來,建立強大的通用學習算法。最初成果主要應用於模擬、電子商務、遊戲開發等商業領域。谷歌於2014年收購了該公司。目前,Google 旗下的 DeepMind 已經成為 AI 領域的明星。

2018年2月27日,Deepmind提出了命名為“獨角獸(Unicorn)”的智能體架構,它展示出優秀的持續學習能力,已經勝過很多基準智能體。研究人員表示,獨角獸通過利用並行的off-policy學習策略,統一表示和學習多種策略,才達到了這樣的表現。

7月28日,發表的論文《Machine Theory of Mind》中,研究人員提出了一種新型神經網絡 ToMnet,具備理解自己以及周圍智能體心理狀態的能力。該論文已被 ICML 2018 接收為 Oral 論文。

8月13日,與倫敦 Moorfields 眼科醫院合作,已經訓練其算法能夠檢測出超過 50 種威脅視力的病症,其準確度與專家臨床醫生相同。它還能夠為患者正確推薦最合適的行動方案,並優先考慮那些最迫切需要護理的人。

10月,發表了一篇題為《Do Deep Generative Models Know What They Don't Know?》(https://arxiv.org/abs/1810.09136?context=stat.ML )的論文。該論文提出,過去學界普遍認為神經網絡在面對和訓練數據分布不同的數據時容易產生錯誤的預測,而生成模型則在這個問題上魯棒性更強。不過他們發現基於流程的模型,VAE和PixelCNN的模型密度無法區分常見物體。

11月14日,宣布旗下的健康部門DeepMind Health、以及負責推進“Streams”(幫助醫生更快識別和診斷患者病情的移動APP)團隊將調整合並到Google 最新成立的“Google Health”部門中。原子公司DeepMind Health將不再作為獨立品牌存在,但是,DeepMind的其他部門仍將保持獨立。

11月16日,DeepMind表示其與英國眼科醫院Moorfields合作的人工智能醫療研究項目已進入下一階段。該項目旨在探索人工智能技術在眼部疾病診療方面的應用。8月時DeepMind發布了該項目的第一批結果,該結果表明人工智能可以與專家人類醫生的表現相匹配,為50多種眼病的正確療程提供建議。DeepMind表示,基於這項研究成果,該項目已經進行到下一個研究階段,在症狀出現之前預測眼病和預防嚴重疾病。

12月5日,DeepMind宣布推出全新的AlphaFold系統,能夠預測並生成蛋白質的3D結構。這一系統在國際蛋白質結構預測競賽(CASP)上擊敗了其余的參會選手。

12月,ICLR 2019 接收論文名單放出,DeepMind & Google 的唇讀技術論文《LARGE-SCALE VISUAL SPEECH RECOGNITION》(https://openreview.net/pdf?id=HJxpDiC5tX )未被接收。評審們認為即使它在工程上和數據上都非常突出,但大模型加上大數據會提升性能是共識,這類改進不能被看作是貢獻。

今年年初,DeepMind和牛津大學提出了注意力神經過程。研究者認為,神經過程(NP)存在著一個根本的不足——欠擬合,對其所依據的觀測數據的輸入給出了不準確的預測。他們通過將注意力納入NP來解決這個問題,允許每個輸入位置關注預測的相關上下文點。研究表明,這大大提高了預測的準確性,顯著加快了訓練速度,並擴大了可以建模的函數範圍。

谷歌:Google Brain團隊

Google Brain是谷歌的人工智能研究小組,由Jeff Dean, Greg Corrado和Andrew Ng共同成立。成立於2011年的谷歌大腦,目前有正式成員48名,團隊負責人是傳奇人物Jeff Dean。在這個團隊中,還包括部分供職的泰鬥級人物Geoffrey E. Hinton,以及Martín Abadi、Michael Burrows等資深科學家。另外,谷歌首席科學家Vincent Vanhoucke也在谷歌大腦團隊中。

2018年2月,Ilya Tolstikhin 等人提出了生成模型新算法:Wasserstein 自編碼器,其不僅具有VAE的一些優點,更結合了GAN結構的特性,可以實現更好的性能。該研究的論文《Wasserstein Auto-Encoders》(https://arxiv.org/abs/1711.01558 )被在 4 月 30 日於溫哥華舉行的 ICLR 2018 大會接收。

2018年4月,谷歌架構調整。谷歌大腦(Google Brain)聯合創始人傑夫·迪恩(Jeff Dean)將領導谷歌所有人工智能領域的項目。

在5月份的ICLR 2018中,和卡內基梅隆大學的研究者提出一種新型問答模型 QANet (https://openreview.net/pdf?id=B14TlG-RW ),該模型去除了該領域此前常用的循環神經網絡部分,僅使用卷積和自注意力機制,性能大大優於此前最優的模型。

來自谷歌大腦的研究者在arXiv上發表論文(https://arxiv.org/abs/1805.09501 ),提出一種自動搜索合適數據增強策略的方法 AutoAugment,該方法創建一個數據增強策略的搜索空間,利用搜索算法選取適合特定數據集的數據增強策略。此外,從一個數據集中學到的策略能夠很好地遷移到其它相似的數據集上。

8月初,同柏林工業大學的研究人員在最新發表的論文Backprop Evolution (https://arxiv.org/pdf/1808.02822.pdf ),提出一種自動發現反向傳播方程新變體的方法。該方法發現了一些新的方程,訓練速度比標準的反向傳播更快,訓練時間也更短。

Ian等人還提出了對抗正則化方法(https://arxiv.org/pdf/1807.07543v2.pdf )顯著改善了自編碼器的平滑插值能力,這不僅能提高自編碼器的泛化能力,對於後續任務的表征學習也會大有幫助。

此外,Ian和Augustus Odena共同提出了一種新方法覆蓋引導模糊測試(coverage guided fuzzing,CGF),將其應用於神經網絡的測試(https://arxiv.org/pdf/1808.02822.pdf ),該方法能夠自動Debug神經網絡。Goodfellow表示,希望這將成為涉及ML的複雜軟體回歸測試的基礎,例如,在推出新版本的網絡之前,使用fuzz來搜索新舊版本之間的差異。此外開源了名為TensorFuzz的CGF軟體庫。

在11月的時候公開了一篇論文“Simple, Distributed, and Accelerated Probabilistic Programming”(https://arxiv.org/pdf/1811.02091v1.pdf ),發表於NIPS 2018。論文提出了一種簡單的方法,用於將概率編程嵌入到深度學習生態系統。這種簡單分布式、加速的概率編程,可以將概率程序擴展到512個TPUv2、1億+參數的模型。

年底的NeurIPS 2018上,密歇根大學和谷歌大腦的研究人員提出了一種新的面向NLP任務的機器學習新架構(https://papers.nips.cc/paper/7757-content-preserving-text-generation-with-attribute-controls.pdf ),不僅能夠根據給定的實例生成句子,而且能夠在保留句子意思的情況下,改變句子表達的感情、時態、複雜度等屬性。

今年初,CMU聯合谷歌大腦、谷歌 AI 發表了一篇論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(https://arxiv.org/pdf/1901.02860v1.pdf )。Transformer 網絡具有學習更長期依賴性的潛力,但這種潛力往往會受到語言建模中上下文長度固定的限制。在此論文中,研究人員提出了一種叫做 Transformer-XL 的新神經架構來解決這一問題,它可以在不破壞時間一致性的情況下,讓 Transformer 超越固定長度學習依賴性。

Facebook : FAIR(Facebook’s Artificial Intelligence Research)

五年前,Yann Lecun創立了 Facebook 人工智能研究院(FAIR),旨在通過開放研究推進人工智能的發展,並惠及所有人。FAIR 的目標是理解智能的本質,以創造真正的智能機器。自此以後,FAIR 不斷發展,並成長為一個國際研究組織,在門洛帕克、紐約、巴黎、蒙特利爾、特拉維夫、西雅圖、匹茲堡、倫敦都設有實驗室。人工智能已經成為 Facebook 的核心,因此 FAIR 現在是更大的 Facebook AI 組織的組成部分,該組織致力於人工智能研發的各個方面,從基礎研究到應用研究和技術開發。

FAIR團隊經常早早地發布前沿研究成果,並盡可能地開源研究代碼、數據集和工具(如 PyTorch、fastText、FAISS、Detectron)。這種方法也成功地推動了人工智能的研究發展。今年,FAIR 的研究人員已經獲得了廣泛認可,在 ACL、EMNLP、CVPR、ECCV 等大會獲得了最佳論文獎,在 ECCV、ICML 和 NeurIPS 會議上獲得了時間檢驗獎(Test of Time award)。開放的工作可以讓每個人在人工智能領域取得更快的進步。

4月初,FAIR 研究人員提出兩種機器翻譯模型的變體,一種是神經模型,另一種是基於短語的模型。研究者結合了近期提出的兩種無監督方法,並簡化了結構和損失函數,得出的新模型性能更優,且易於訓練和調參。

5月13日,開源了圍棋 AI ELF OpenGo訓練模型及代碼,它基於現有的強化學習研究平台 ELF,擊敗了世界圍棋冠軍。

6月19日,FAIR開源了 DensePose,這是一個能將人體所有像素的 2D RGB 圖像實時映射到 3D 人體模型的應用。這一模型利用 COCO 數據集中 50K 張密集型人體對應關係的標注,並在有遮擋和尺度變換等自然情況下能準確實現密集型人體姿態估計。

11月初,FAIR 和紐約大學的研究者合作開發了一個新的自然語言推斷語料庫 XNLI,該語料庫將 MultiNLI 的測試集和開發集擴展到 15 種語言,包括斯瓦西裡語和烏爾都語等低資源語言。XNLI 是跨語言句子理解的基準,實際可用且具備一定難度,有助於帶來更好的跨語言理解方法。

在年底,FAIR宣布推出 PyText 的開源版本,它是Facebook正在使用的主要自然語言處理(NLP)建模框架,目前每天在為 Facebook 及其應用程序系列的用戶提供超過 10 億次 AI 任務處理;同時FAIR開源了全卷積語音識別工具包wav2letter++。

今年年初,FAIR Alexander Kirillov、何愷明等人在《Panoptic Feature Pyramid Networks》(http://cn.arxiv.org/pdf/1901.02446v1 )提出全景特徵金字塔網絡。該論文提出的全景特徵金字塔網絡結合了分別用於語義分割和實例分割的 FCN 和 Mask R-CNN,在兩種任務基線上有很好的穩健性和準確率。

MIT : CSAIL(Computer Scienceand Artificial Intelligence Laboratory)

MIT的CSAIL最初是兩個實驗室:計算機實驗室創辦於1963年,人工智能實驗室創辦於1959年,兩個實驗室在2003年正式合並。CSAIL是MIT最大的實驗室,也是世界上最重要的信息技術研發中心。CSAIL的成員創立了多於100家知名公司,包括機器人之父科林·安格爾,iRobot公司創始人之一海倫·格雷納,波士頓動力公司創始人馬克·雷伯特,還有卡內基·梅隆大學機器人研究所的負責人馬特·梅森。

4月初,CSAIL研發出一種名為Pixel Player系統(https://arxiv.org/abs/1804.03160 ),能夠通過大量無標簽的視頻來學習聲音定位,更強大的是,Pixel Player能夠把聲音與聲源的像素點進行分離,並完美做到視覺與聲音的同步,“想聽哪裡點哪裡”。同時,利用Pixel Player系統,用戶能夠對圖像中不同的聲音分別進行音量調節,實現簡單的音頻編輯。

此外還提出了一款名為 RoadTracer 的道路采集系統。針對道路交匯路段,RoadTracer 的采集準確率能達到 45%,遠高於傳統圖像分割方法的 19%。

5月初,CSAIL1的研究人員開發了一種全新的系統 MapLite,這種系統允許無人車在不依賴 3D 地圖的情況下,在未知的道路上駕駛。此外,該系統還能將 Google 地圖上的 GPS 數據與一系列傳感器收集到的路況信息結合起來。

7月,CSAIL和電子工程與計算機科學系( EECS )的研究人員開發了一種模型用於更有效的選擇先導分子。該模型輸入分子結構數據,創建分子圖片,詳細展示分子結構,節點代表原子,邊線代表化學鍵。這些圖又被分解成更小的有效官能團簇,成為“構件”,用於實現更精確的分子重構和修飾。

8月,CSAIL正式發布編程語言Julia 1.0,這門由MIT CSAIL 實驗室開發的編程語言結合了 C 語言的速度、Ruby 的靈活、Python 的通用性,以及其他各種語言的優勢於一身,並且具有開源、簡單易掌握的特點。

10月4日,CSAIL和QRCI(卡達計算研究所)宣布研究出一種可以識別虛假新聞在傳播前的來源和個人政治偏見的AI系統。他們所使用的機器學習算法利用現有文章集合來衡量給定出口的準確性和偏差,該系統或可將不可信賴的新聞信息自動分類。

在12月發表的論文《Deep sequential models for sampling-based planning》(https://arxiv.org/abs/1810.00804 )中,研究人員展示了他們的模型在兩個環境中的優勢:通過具有陷阱和狹窄通道的具有挑戰性的房間導航,以及在避免與其他Agent碰撞的區域導航。一個有前途的現實世界應用程序正在幫助自動駕駛汽車在十字路口行駛,在那裡他們必須在並入交通之前快速評估其他汽車將做什麽。目前,研究人員正通過豐田凱撒爾聯合研究中心來研究這些應用。

NeurIPS 2018中,CSAIL和谷歌的研究人員發表了一篇論文,描述了一個能夠生成具有逼真紋理的人工智能系統——視覺對象網絡(Visual Object Networks,VON),不僅生成的圖像比當前最先進的方法還要逼真,還可以進行形狀和紋理編輯、視角轉換以及其它3D調整。

UC Berkeley : BAIR(Berkeley Artificial Intelligence Research)

加州大學伯克利分校的人工智能研究室(Berkeley Artificial Intelligence Research)主要研究領域涵蓋計算機視覺、機器學習、自然語言處理、規劃和機器人等(computer vision,machine learning,natural language processing, planning, and robotics)。其中的機器人和智能機器實驗室,致力於用機器人複製動物的行為。其自動化科學和工程實驗室從事更廣泛的機器人功能的研究,如機器人輔助外科手術和自動化製造。還有計算機可視化小組,學生可以學到如何幫助機器人能“看得見”。

4月的時候,BAIR介紹了他們對於運動建模的最新研究成果DeepMimic模型,他們使用動作捕捉片段訓練自己的模型。訓練中著力減小跟蹤誤差並採用提前終止的方法來優化訓練結果。訓練模型最終表現優秀。

6月,BAIR發表部落格論文《Delayed Impact of Fair Machine Learning》,討論了靜態公平性準則的長期影響,發現結果和人們的期望相差甚遠。相關論文被 ICML 2018 大會接收(https://arxiv.org/pdf/1803.04383.pdf )。

6月的時候還發布了迄今為止規模最大、最多樣化的開放駕駛視頻數據集BDD100K。該數據集共包含 10 萬個視頻,BAIR 研究者在視頻上采樣關鍵幀,並為這些關鍵幀提供注釋。此外,BAIR 還將在 CVPR 2018 自動駕駛 Workshop 上基於其數據舉辦三項挑戰賽。

10月18日,BAIR開源了DeepMimic(https://xbpeng.github.io/projects/DeepMimic/index.html )。DeepMimic使用強化學習技術,用動作捕捉片段訓練模型,教會了AI智能體完成24種動作,包括翻跟鬥、側翻跳、投球、高踢腿等等,動作非常流暢自然。

BAIR的研究人員還提出了一種從視頻中學習技能的框架(skills from videos,SFV),結合了前沿的計算機視覺和強化學習技術構建的系統可以從視頻中學習種類繁多的技能,包括後空翻和很滾翻等高難度動作。同時智能體還學會了在仿真物理環境中複現這些技能的策略,而無需任何的手工位姿標記。

BAIR年末的一篇《Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control》(https://arxiv.org/abs/1812.00568 )論文中,提出了一種自我監督的基於模型的方法,在這種方法中,預測模型學習直接從原始感官讀數(如攝影機圖像)預測未來,證明了可視化MPC可以概括為從未見過的對象並使用相同的模型解決一系列用戶定義的對象操作任務。

蒙特利爾大學 : MILA(Montreal Institute for Learning Algorithms)

加拿大蒙特利爾現在被媒體稱作是人工智能的“新矽谷”。加拿大廣播公司報導說,這個功勞,主要歸功於“深度學習三巨頭”之一的Yoshua Bengio。他是MILA(Montreal Institute for Learning Algorithms)的創始人,帶領團隊進行人工智能研究已經有超過10年的時間。由蒙特利爾大學 (University of Montreal )的計算機學教授Yoshua Bengio帶領,MILA在深度學習(deep learning)和深度神經網絡(辨別型和生成型)(deep neural networks, both discriminative and generative)等領域都有開創性研究,並應用到視覺、語音和語言方面等領域。

4月,MILA提出了一種有助於提升深度網絡在應對對抗攻擊方面的穩健性的模型:防禦增強型網絡(Fortified Networks)。該研究已提交 ICML 2018 (https://arxiv.org/abs/1804.02485v1 )。

10月,Yoshua Bengio及其小組提出了一個叫做「BabyAI」的研究平台用來訓練人工智能從頭學習和理解人類語言,每個單詞背後的意思到底是什麽。該平台包括一個有效模擬的網格世界環境(MiniGrid)和一些被稱之為Level的指令跟隨任務,全部由合成語言的子集(嬰兒語言)形成。平台還提供了一個模擬人類的啟發式專家,用於模擬人類教師。

史丹佛:SAIL(Stanford Artificial Intelligence Laboratory)

去年一年裡,SAIL所獲得的最佳論文:

Yuanzhi Li, Tengyu Ma, Hongyang Zhang. Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations. Best paper award at COLT 2018.

在論文中探討了了梯度下降法為訓練過參數化的矩陣分解模型,以及使用二次函數作為激活函數 的單隱含層神經網絡提供了隱式的正則化效果。

Pranav Rajpurkar, Robin Jia, Percy Liang. Know What You Don’t Know : Unanswerable Questions for SQuAD.. Best short paper ACL 2018.

在這篇論文中,SAIL提供了SQuAD 2.0,這是史丹佛問答數據集(SQuAD)的最新版本。SQuAD 2.0將現有的SQuAD數據與5萬多個無法回答的問題結合在一起,這些問題由眾包人員以相反的方式撰寫,看起來與可回答問題類似。為了在SQuAD 2.0上取得好成績,系統不僅必須盡可能回答問題,還要確定何時段落不支持答案並且不回答問題。SQuAD 2.0對於現有模型來說是一個具有挑戰性的自然語言理解任務:在SQuAD 1.1上獲得86% F1的強大的神經系統在SQuAD 2.0上僅獲得66%F1。

Rob Voigt, Nicholas P. Camp, Vinodkumar Prabhakaran, William L. Hamilton, Rebecca C. Hetey, Camilla M. Griffiths, David Jurgens, Dan Jurafsky, and Jennifer L. Eberhardt. Language from police body camera footage shows racial disparities in officer respect. Cozzarrelli Prize (best paper in PNAS).

這篇論文利用隨身攜帶的攝影機拍攝的錄像,分析了警察語言在日常交通中對白人和黑人社區成員的尊重程度,發現即使在控制了警察的種族、違法行為的嚴重程度、停車地點和停車結果之後,警察對黑人和白人社區成員的尊重程度也一直較低。

Amir Zamir, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik, Silvio Savarese. Taskonomy:Disentangling Task Transfer Learning. Best paper award at CVPR 2018.

這篇論文提出了一種計算不同任務相似性的方法,以及利用不同任務相似性,在少量訓練數據條件下進行多任務組合學習的分配方法。文章的最終目標是通過計算任務相似性,進一步計算選取針對目標任務的多任務組合進行訓練,並實現以少量數據盡可能接近全監督學習的性能。

Zi Ye, Olga Diamanti, Chengcheng Tang, Leonidas Guibas, Tim Hoffmann. A unified discrete framework for intrinsic and extrinsic Dirac operators for geometry processing. 1st Place best paper award at SGP 2018.

本文考慮了一對離散的Dirac算子,後者對應於每個面上定義了多邊形面和正態線的離散面,並證明了光滑理論的許多關鍵性質。特別地,討論了相應的自旋變換、它們的保角不變量以及這一算符與其內在對應算符之間的關係。

Jingwei Huang, Yichao Zhou, Matthias Nie?ner, Jonathan Shewchuk, Leonidas Guibas. QuadriFlow: A Scalable and Robust Method for Quadrangulation. 2nd Place best paper award at SGP 2018.

本文提出的算法是在Instant Field-Aligned Meshes 這篇文章的基礎提出的。本文提出了一種有效的方法,通過將實時網絡目標與線性和二次約束系統相結合來最小化奇點。通過解決全局最小成本網絡流問題和本地布爾滿意度問題來實施這些約束。利用本文算法生成的四邊形質量與其他方法一樣好,而且運行速度較快。其他的外部算法產生的奇點比較慢,本文的算法花費不到10秒鐘來處理每個模型。

Hongseok Namkoong, John Duchi. Variance-based Regularization with Convex Objectives. Best paper award at NIPS 2017.

這篇文章研究了一種風險最小化和隨機優化的方法,該方法可以為方差提供一個凸屬性的替代項,並允許在逼近和估計誤差間實現近似最優與高效計算間的權衡。

卡內基梅隆大學

卡內基梅隆大學(Carnegie Mellon University)一直是眾所周知的計算機領域大牛。自人工智能(Artifical Intelligence)領域創建以來,卡內基梅隆大學一直在全球引領AI的研究、教育和創新。在18年秋季,其計算機學院開設全美第一個人工智能本科專業。

CMU團隊最新的主要研究成果如下:

CMU的陳鑫磊(現Facebook 研究科學家)、Abhinav Gupta,谷歌的李佳、李飛飛等人提出的一種新型推理框架《Iterative Visual Reasoning Beyond Convolutions》(https://arxiv.org/abs/1803.11189 ),其探索空間和語義關係的推理性能大大超過了普通卷積神經網絡,被評為 CVPR 2018 大會 Spotlight 論文。

年中時候,在讀博士劉寒驍、DeepMind 研究員 Karen Simonyan 以及 CMU 教授楊一鳴提出的「可微架構搜索」DARTS 方法基於連續搜索空間的梯度下降,可讓計算機更高效地搜索神經網絡架構。該研究的論文《DARTS: Differentiable Architecture Search》(https://arxiv.org/abs/1806.09055 )一經發出便引起了 Andrew Karpathy、Oriol Vinyals 等學者的關注。研究者稱,該方法已被證明在卷積神經網絡和循環神經網絡上都可以獲得業內最優的效果,而所用 GPU 算力有時甚至僅為此前搜索方法的 700 分之 1,這意味著單塊 GPU 也可以完成任務。

10月份的時候,來自英特爾實驗室和卡內基梅隆大學的研究員提出了一種用於序列建模的新架構Trellis Network。研究員聲稱,Trellis Network吸收了循環神經網絡和卷積神經網絡中的結構和算法元素。實驗證明,Trellis Network在各種具有挑戰性的基準測試中表現都優於當前的技術水準,包括Penn Treebank和WikiText-103。

在今年年底,NIPS 2018 對抗視覺挑戰賽中, CMU 邢波團隊包攬兩項冠軍,另一項冠軍則由來自加拿大的 LIVIA 團隊斬獲,清華 TSAIL 團隊獲得“無針對性攻擊”的亞軍。本次比賽共分為三個單元:防禦、無針對性攻擊和有針對性攻擊。

CMU、北大和 MIT 的研究者在年底發表了論文《Gradient Descent Finds Global Minima of Deep Neural Networks》(https://arxiv.org/abs/1811.03804v1 ),該論文證明了對於具有殘差連接的深度超參數神經網絡(ResNet),梯度下降可以在多項式時間內實現零訓練損失。研究者的分析依賴於神經網絡架構引入的格拉姆矩陣的多項式結構。這種結構幫助研究者證明格拉姆矩陣在訓練過程中的穩定性,而且這種穩定性意味著梯度下降算法的全局最優性。

伊利諾伊大學大學厄本那香檳分校

伊利諾伊大學厄巴納-香檳分校(University of Illinoisat Urbana-Champaign,縮寫為UIUC),建立於1867年,是一所享有世界聲望的一流研究型大學。該大學從美國國家科學基金會(NSF)獲得研究經費量年年在全美名列第一。位於該大學的美國國家超級計算應用中心(NCSA)在高性能計算、網路和資訊技術的研究和部署領域,一直處於世界領先的地位。

UIUC的最新研究成果如下:

來自北京郵電大學和UIUC的研究者們提出一種適用於密集人群計數的空洞卷積神經網絡模型 CSRNet,論文《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes》(https://arxiv.org/pdf/1802.10062.pdf )。該網絡模型擺脫以往廣泛應用於人群計數的多通道卷積網絡方案,在大幅削減網絡參數量和網絡訓練難度的同時,顯著提升了人群計數的精度和人群分布密度圖的還原度。該研究已被 CVPR 2018 接收。

UIUC 和 Zillow 的研究者發表《LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image》(https://arxiv.org/abs/1803.08999 )論文提出了 LayoutNet,它是一個僅通過單張透視圖或全景圖就能估算室內場景 3D 布局的深度卷積神經網絡(CNN)。該方法在全景圖上的運行速度和預測精度比較好,在透視圖上的性能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓布局中,例如“L”形的房間。

極低照明度下,傳統增加亮度的方法會放大噪點和色彩失真。而 UIUC 和英特爾的研究者在《Learning to See in the Dark》(https://arxiv.org/abs/1805.01934 )中通過全卷積網絡處理這一類黑黑的照明度圖像,並在抑噪和保真的條件下將它們恢復到正常亮度。這種端到端的方法將為機器賦予強大的夜視能力,且還不需要額外的硬體。

【加入社群】

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手微信號:aiera2015_2入群;通過審核後我們將邀請進群,加入社群後務必修改群備注(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

獲得更多的PTT最新消息
按讚加入粉絲團