Nature：同行評審屢遭毒噴，中國欲啟用AI系統解決問題

新智元原創

來源：Nature、Frontiers

編輯：金磊、小芹、鵬飛

【新智元導讀】近日，各大頂會評審風波不斷，可謂民意洶湧。Nature發表文章稱，我國國家自然科學基金委員會正在利用AI來選擇匹配評審人。那麽這套系統是否能夠做到省時省力又無偏見呢？讓我們來一探究竟。

同行評審飽受爭議，要不試試AI？

最近，人工智能頂會IJCAI 19遭眾多網友猛烈抨擊：審稿不專業、學生審稿、review寥寥幾句、打分看心情。被網友評價為“審稿宇宙最爛”。

連大會程序主席Sarit Kraus也被迫站出來作解釋：

由於論文數量太多，審稿人數量不足，時間也頗為緊迫，只能在現有條件下盡力把控審稿流程。對於作者們反映的審稿過程瑕疵、公平性不足、隨機性太強等問題表示理解。

那麽，為什麽不試試AI呢？

文章地址：

昨日，Nature發表文章稱，中國國家自然科學基金委員會(NSFC)正在建立一個更加複雜的系統，該系統將利用自然語言處理技術抓取在線科學文獻數據庫和科學家的個人網頁，收集潛在評審人員的出版物或研究項目的詳細信息。

國家自然科學基金委負責人李靜海表示，該系統將使用文本的語義分析來比較資助申請和潛在評審人信息，並確定最佳匹配。

這個工具可以選擇研究人員來審查資助申請，讓這個過程更有效、更快、更公平。一些研究人員表示，NSFC採用的方法是世界領先的，但其他人對AI能否改善這一過程持懷疑態度。

AI加持同行評審：省時省力，也可減少偏見，外國正在效仿

上個月在杭州召開的學術交流會議上，國家自然科學基金前負責人楊衛介紹了試點數據。該工具的試用版本從去年獲批資助項目的近44000個專家組中各選擇至少1位專家，每個專家組由3~7人組成。楊衛說，該系統已經減少了行政人員尋找評審專家的時間。他說，今年也將採用類似的方法來選擇評審專家。

節省時間

歐洲最大的基礎研究機構法國國家科學研究中心國際合作部主任Patrick Nédellec說，中國國家自然科學基金委員會已經成為改革資助審查程序的全球領導者。Nedellec在去年9月的一次會議上討論了國家自然科學基金的改革計劃，他說，因為申請基金的數量不斷增加，NSFC已經被迫進行了創新。

“壓力如此之大，中國別無選擇，只能尋找最好的辦法，”他表示。

在過去的五年裡，國家自然科學基金收到的申請數量以每年約10%的速度增長。2018年，該機構評審了22.5萬份資助申請，幾乎是美國國家科學基金會收到的6倍。李靜海說，國家自然科學基金委正在努力處理申請並尋找合適的評審人員。“挑戰在於沒有足夠的人手，”他表示：“AI會解決這個問題。”

減少偏見

李靜海還希望這個工具能夠減少審稿人評審時的偏見。他說，在中國，科學家們可能為他們的項目找關係。“評審中的一個問題是，人們可能走關係。AI是不會被行賄收買的，”李靜海說。

在其他一些國家，申請者可以推薦由哪位專家審查他們的提案，這也是一個問題。例如，瑞士國家科學基金會發現，由申請者推薦的評審員比由基金會選擇的評審員更有可能支持這個項目。

國家自然科學基金委的試點AI系統目前僅適用於中文網站，但李靜海希望它將來也能夠抓取英文網站。

維也納理工大學的科學政策顧問Manfred Horvat表示：“國家自然科學基金委的改革計劃雄心勃勃、具有前瞻性和全面性。”Horvat去年9月也聽過李靜海的演講。

其他國家也在效仿中國。上個月，挪威研究委員會開始使用自然語言處理技術，將大約3000份研究提案分組，並將它們與最佳評審小組進行匹配。

在接受《國家科學評論》((National Science Review，NSR)專訪時，李靜海院士表示：

在其他國家有一些智能系統的雛形，但還沒有過一個完整的系統。比如在一些期刊的投審稿系統中，已經可以通過關鍵詞匹配來判斷特定的專家是否適合審稿，也可以提供審稿人的既往評審數據。

而我們希望能做得更多更好更嚴格。將要建成的系統可以對評審人的既往研究工作、發表過的文章等進行分析，通過語義理解比對，與基金申請書進行匹配，找到在專業上合適的專家，同時結合信譽數據，遴選出最適合的評審人。

評審人的選擇在基金評審中舉足輕重，是世界各國科學基金資助機構共同關心的問題。現在，申請人常常不信任機器的選擇，而單純依靠人為選擇也同樣可能影響公正性。我們希望能夠利用更先進的人工智能技術，真正解決這個問題。這方面還需要凝聚科技界全體的智慧。

Frontiers通過AI協助審稿人和編輯提高效率

高質量的同行評審是學術出版的基礎，證明研究假設、方法和結論的有效性、嚴謹性和正確性。出版商和審稿人面臨的挑戰是，在不斷增加的稿件提交面前，要保持嚴格的質量標準。

Frontiers(《前沿》系列期刊)在2018年推出下一代通常評審AIRA，試圖解決日益增長的稿件提交量，並更有效地保護稿件和同行評審質量。

Frontiers聲稱，AIRA使用內部自定義算法，同時使用iThenticate（CrossRef首創並與iParadigms公司共同開發出一個全新的，用於幫助學術出版者驗證出版文檔原創性的工具）和Ada（一款文字檢查工具）。所有這些都經過Frontiers的10年同行評審經驗的培訓和嚴格測試，並完全融入Frontiers的協作評審論壇和內部流程。

AIRA能夠通過分析稿件質量、解釋和傳達審核流程，以及提供建議和識別潛在審稿人，為編輯、審稿人和內部團隊提供協助，並將通過持續學習不斷優化。

上述功能已集成到Frontiers Review Forum和內部工作流程中，簡化了投稿人在Frontiers的發布流程。

Frontiers首席執行官兼聯合創始人Kamila Markram：“技術不能取代人，而是幫助人們能夠以更有效的方式做出編輯決策。AIRA可以讓我們的編輯、審稿人和內部團隊專注於在正確的時間做對的事並做出關鍵決策。這加快了審查過程並縮短了發布時間，同時確保了最高質量的控制。“

AI致力於兩項關鍵同行評審任務

AIRA目前致力於兩項關鍵的同行評審任務：質量控制和評審員識別。其算法可根據一系列質量測量，快速準確地評估提交的稿件，包括文本重疊；語言、人體圖像的存在以及其他道德因素。

達到既定質量門檻的人員，將被傳遞給編輯；而任何有潛在問題的人員都會被標記，並交由Frontiers的研究誠信和審查運營團隊以進行進一步調查，並且在解決之前暫停一些審核工作。

AIRA的算法還根據專業知識和可用性，來識別潛在的審閱者，並檢查編輯、審閱者和作者之間是否存在潛在的利益衝突。

Frontiers的質量和道德高級經理MarieSoulière說：“它不僅標記有潛在問題的稿件，還會告訴我們需要手動檢查的內容，從而減少了審查疲勞並使審查更加準確。AIRA還能夠提醒一些人工難以完成的檢查任務，例如抄襲。“

想用AI來匹配審稿人？目前可能還不行

但並非所有人都支持AI用在評審過程中。

英國劍橋RAND Europe研究機構的科學政策專家Susan Guthrie指出，加拿大衛生研究院在使用一種用於評審人員選擇的算法時就遇到了重大挑戰。

這個機構於2016年聘請了RAND Europe公司對同行評審的研究進行meta分析。而得出的結論有時可謂是大跌眼鏡：算法有時會選擇存在利益衝突、不適合或者沒有資格的審稿人。獨立專家小組的結論是：

雖然基於算法的匹配聽起來很有吸引力，但在人工智能的這個階段，它可能實現的目標是有限的。審稿人的選擇必須主要依據科學的人類判斷。

威斯康辛州麥迪遜市教育分析公司的政策研究員Elizabeth Pier認為，人工智能無法消除選擇偏見。

她擔心人工智能系統最終會複製人類判斷中根深蒂固的偏見，而不是避免它們。她建議國家自然科學基金委員會應該做一項研究，將人工智能選擇的審稿人與人類選擇的審稿人進行比較。李靜海對此表示，一旦系統建立並運行起來，自然科學基金委可能會考慮這一點。

“偉大的項目”需要時間的打磨

李靜海計劃在未來五年推出其他工具，使撥款系統更加公平，其中包括一個獎勵系統，獎勵研究人員進行良好、公平和及時的審查。他說，信用體系的理念是鼓勵審稿人認真對待這份工作並保持專業度。

史丹佛大學的統計學家John Ioannidis對國家自然科學基金委員會在繪製提案時使用客觀、數據驅動的工具來選擇評審者的努力表示讚賞。但他認為，目前很難評估評審者是否做出了正確的決定。Ioannidis說，一個想法可能需要幾十年的時間才能被鑒定是“偉大的”或是“無用的”。

但是李靜海已經做好了準備，他說：“這項任務不容易實現，需要在長期的學習和測試過程中不斷改進。”

那麽親愛的讀者，你讚同利用AI來輔助同行評審嗎？

參考鏈接：

https://blog.frontiersin.org/2018/12/14/artificial-intelligence-peer-review-assistant-aira/