每日最新頭條.有趣資訊

別再SOTA了,那叫“微調”!Science發文炮轟論文灌水

金磊 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

AI算法的發展,真有那麽迅猛嗎?

為了一探究竟,來自MIT的研究人員,便對81種AI算法做了橫測,結果令人大跌眼鏡:

沒有明確證據表明,這些算法在10年內,對任務效果有明顯改善。

針對類似的問題,Science最近也發文表示:

人工智能在某些領域的進步引人注目,但這並不是真正的進步。

那麽,這到底是怎麽一回事?

“是微調,不是核心創新”

MIT研究人員橫測的對象,是81種剪枝算法。

這類算法簡單來說,就是對神經網絡的連接做“修修剪剪”,以此來提高效率。

然而,這種算法的發展現狀,正如Science發文作者Matthew Hutson所說:

很多科研工作者就在此之上,做了些許“微調”,然後就宣稱自己的算法具有優勢。

因此,MIT的研究人員便對這些算法做了元分析,還提出了一種框架——ShrinkBench,用來促進剪枝算法的標準化評估。

真正的好算法,需要經得起考驗,那麽結果又如何呢?

第一輪考驗:剪枝 vs 架構

研究人員基於ImageNet,繪製了剪枝後模型的準確率和壓縮/加速水準,以及沒有做過剪枝、不同架構的相同指標,結果如下圖所示。

不難看出,一個給定架構經過剪枝後,可以改善其時間/空間與精度之間的權衡,有時候還可以提高精度。

但剪枝的效果,通常不如換個架構效果來得好。

第二輪考驗:“同行”算法比較

這一維度的考慮,是因為研究人員發現,許多工作都高舉“SOTA”旗幟,然而比較的對象卻不全。

很明顯的現象就是,缺少與2010年之前提出的算法的比較,甚至都沒有跟其它號稱SOTA的算法做對比,如下圖所示。

第三輪考驗:數據集和架構的組合

在81篇論文中,ImageNet和VGG-16的組合最為常見,並且,在前六種最常見的組合中,有三種涉及MNIST。

但MNIST與其它主流圖像分類數據集有很大的區別:它的圖像是灰度的,大部分是由0組成,用簡單的模型進行分類,準確率就可以達到99%以上。

第四輪考驗:度量指標

還有五花八門的度量指標,啥也不說了,直接上圖。

當然,還有諸如數據預處理、調參策略等一系列問題,都會導致結果的不同。

研究一作Davis Blalock表示:

這些改進都是所謂的“微調”,而不是科研人員聲稱的“核心創新”,甚至有些改進方法可能根本就不存在。

於是乎,MIT的研究人員便開發了一套方便開發、標準化評價神經網絡的剪枝方法。

ShrinkBench提供了標準化和可擴展的功能,可以用於訓練、剪枝、微調、計算度量和繪圖,而且都是使用標準化的預訓練模型和數據集。

正如另一位作者John Guttag所說:

如果你不能衡量某種東西,就很難讓它往好的方向發展。

好了,現在要是再想在剪枝算法上,稍微搞個小進展就水一篇論文,可能不再那麽容易了。

Science發文炮轟水論文

最近,Science也針對“水論文”一事發表文章,認為人工智能領域中的許多分支,其發展都是不穩定的:

2019年,對搜索引擎中使用的信息檢索算法進行的一項元分析,得出了一個“高水位線”(high-water mark),然而,它早在2009年就有了;

同樣是2019年,另外一項研究複現了7個神經網絡推薦系統,結果,其中6個系統的表現,還沒有多年前開發的更簡單的非神經網絡算法好;

今年2月,卡內基梅隆大學的計算機科學家Zico Kolter在arXiv發表論文,他發現早期的對抗訓練方法PGD,只需要用簡單的小技巧增強一下,就能達到目前所謂更新、更複雜方法的效果;

今年3月,康奈爾大學的計算機科學家Kevin Musgrave,在arXiv上發表了一篇論文研究了損失函數,在一項涉及圖像檢索的任務中,他對其中十幾個算法進行了平等的比較,結果發現,與這些科研工作者的說辭恰巧相反,自2006年以來,準確率就沒有提高過。

正如Musgrave表示:

炒作浪潮一直存在。

反觀那些經久不衰的算法,像LSTM,自1997年被提出後,在語言翻譯任務中取得了重大突破。

如果LSTM得到適當的訓練,它的性能就能和20年後(現在)的算法相當。

類似的還有像2014年提出的GAN,大幅提高了生成圖像的能力。在2018年的一篇報告稱,只要有足夠的計算量,原有的GAN方法可以與後來的方法相媲美。

對此,Kolter認為,研究人員應當熱衷於開創全新的算法,讓這個新算法達到SOTA效果,而不是對現有算法做調整。

那麽,如今這種論文灌水背後的原因,又是什麽呢?

其中一個因素,便是MIT研究人員所指出的評估標準問題——數據集不同、調整方法不同、性能指標和基線都不同,這種比較是不可行的。

而另外一個原因,便是AI領域的爆炸性增長,論文數量遠超有經驗的審稿人數,評審人員應當堅持跟一個合理、科學的基準,做更好的比較。

比論文灌水更可怕的,是造假

以為學術亂象只有這些?

不,還有一股“造假風”。

5月20日,國外網友便曝出了一個學術造假大事件:

8篇文章,不同作者,不同醫院,不同癌症種類,不同蛋白表達,愣是完全一樣的結果,發了8篇論文。

UAB醫學院糖尿病中心博士後研究員、營養學博士,微博網友“晨光us”對此表示:

如此喪心病狂的造假,簡直讓人看得窒息。

然而,更令人悲哀的是,論文作者全部來自中國……

而且從文章署名來看,從一線醫生到主任副主任醫師、醫院副院長,還有多篇是國家自然科學基金資助。

如此造假,簡直不簡單。

網友也表示:

突破了我對學術造假的所有認知。

無獨有偶,前不久在知乎中還曝出南京郵電大學教授,三年半發表300篇IEEE論文,一時成為熱議話題。

其弟子“黃同學”論文造假、冒充北大學生,也一並上了熱搜。

……

如此學術亂象,你怎麽看?

獲得更多的PTT最新消息
按讚加入粉絲團