曉查 安妮 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
為了調用各種經典機器學習模型,今後你不必重複造輪子了。
剛剛,Facebook宣布推出PyTorch Hub,一個包含計算機視覺、自然語言處理領域的諸多經典模型的聚合中心,讓你調用起來更方便。
有多方便?
圖靈獎得主Yann LeCun強烈推薦,無論是ResNet、BERT、GPT、VGG、PGAN還是MobileNet等經典模型,只需輸入一行代碼,就能實現一鍵調用。
厲不厲害!
Facebook官方部落格表示,PyTorch Hub是一個簡易API和工作流程,為複現研究提供了基本構建模塊,包含預訓練模型庫。
並且,PyTorch Hub還支持Colab,能與論文代碼結合網站Papers With Code集成,用於更廣泛的研究。
發布首日已有18個模型“入駐”,獲得NVIDIA官方力挺。而且Facebook還鼓勵論文發布者把自己的模型發布到這裡來,讓PyTorch Hub越來越強大。
這個新工具一下子把不少程序員“圈了粉”。
短短幾個小時,LeCun的推文就收獲了上千條讚,網友好評如潮,花式稱讚“Nice”“Great”“Wow”。
前Google Brain員工@mat kelcey調侃說,“Hub”這個詞是機器學習模型項目的共享詞麽?TensorFlow Hub前腳到,PyTorch Hub就來了~
網友@lgor Brigadir跟評說,可能是從GitHub開始流行的。
所以,這個一問世就引發大批關注的PyTorch Hub,具體有哪些功能,該怎麽用?來看看。
一行代碼就導入
試看效果如何,可一鍵進入Google Colab運行。
具體怎麽用,Facebook分別給用戶和發布者提供了指南。
對於用戶
PyTorch Hub允許用戶對已發布的模型執行以下操作:
1、查詢可用的模型;
2、加載模型;
3、查詢模型中可用的方法。
下面讓我們來看看每個應用的實例。
1、查詢可用的模型
2、加載模型
在上一步中能看到所有可用的計算機視覺模型,如果想調用其中的一個,也不必安裝,只需一句話就能加載模型。
至於如何獲得此模型的詳細幫助信息,可以使用下面的API:
如果模型的發布者後續加入錯誤修複和性能改進,用戶也可以非常簡單地獲取更新,確保自己用到的是最新版本:
對於另外一部分用戶來說,穩定性更加重要,他們有時候需要調用特定分支的代碼。例如pytorch_GAN_zoo的hub分支:
3、查看模型可用方法
從PyTorch Hub加載模型後,你可以用dir(model)查看模型的所有可用方法。以bertForMaskedLM模型為例:
如果你對forward方法感興趣,使用help(model.forward) 了解運行運行該方法所需的參數。
PyTorch Hub中提供的模型也支持Colab。
進入每個模型的介紹頁面後,你不僅可以看到GitHub代碼頁的入口,甚至可以一鍵進入Colab運行模型Demo。
對於模型發布者
如果你希望把自己的模型發布到PyTorch Hub上供所有用戶使用,可以去PyTorch Hub的GitHub頁發送拉取請求。若你的模型符合高質量、易重複、最有利的要求,Facebook官方將會與你合作。
一旦拉取請求被接受,你的模型將很快出現在PyTorch Hub官方網頁上,供所有用戶瀏覽。
目前該網站上已經有18個提交的模型,NVIDIA率先提供支持,他們在PyTorch Hub已經發布了Tacotron2和WaveGlow兩個TTS模型。
發布模型的方法也是比較簡單的,開發者只需在自己的GitHub存儲庫中添加一個簡單的hubconf.py文件,在其中枚舉運行模型所需的依賴項列表即可。
比如,torchvision中的hubconf.py文件是這樣的:
Facebook官方向模型發布者提出了以下三點要求:
1、每個模型文件都可以獨立運行和執行
2、不需要PyTorch以外的任何包
3、不需要單獨的入口點,讓模型在創建時可以無縫地開箱即用
Facebook還建議發布者最小化對包的依賴性,減少用戶加載模型進行實驗的阻力。
支持公開代碼,從頂會做起
就在PyTorch Hub上線的同時,學術會議ICML 2019也開始在加州長灘舉行。
和Facebook的理念相似,今年的ICML大會,首次鼓勵研究人員提交代碼以證明論文結果,增加了論文可重複性作為評審考察的因素,
也就是說,開放代碼更容易讓你的論文通過評審。
此前,挪威科技大學計算機科學家Odd Erik Gundersen調查後發現,過去幾年在兩個AI頂會上提出的400種算法中,只有6%的研究有公開代碼。這就讓長江後浪的直接調用非常困難了。
ICML的政策也是順應了不少研究人員的心聲,這個政策施行的效果還不錯。
據ICML 2019大會協同主席Kamalika Chaudhuri等人進行的統計顯示,今年大約36%的提交論文和67%的已接受論文都共享了代碼。
其中,來自學術界的研究人員的貢獻熱情比產業界高得多,學術界提交的作品中有90%的研究包含代碼,而產業界只有27.4%。
與之相比,NeurIPS 2018的已接收論文中,只有不到一半的論文附上了代碼。
總之,對於AI領域的長遠發展來說,這是個大好現象~
傳送門
官方介紹部落格:
https://pytorch.org/blog/towards-reproducible-research-with-pytorch-hub/
測試版PyTorch Hub:
https://pytorch.org/hub
PyTorch Hub的GitHub主頁:
https://github.com/pytorch/hub
—完—