防範AI最前線的OpenAI，開發了一個會寫假新聞的AI模型

「四月間，氣象寒冷晴朗，鍾敲了十三下。」當人類把《一九八四》這個著名的開頭輸入到

OpenAI 剛展示的語言算法模型 GPT-2

後，這個包含了 15 億個參數（parameters）的模型識別出了這種模糊的未來派小說基調，開始了創作。

「我開車去西雅圖找一份新工作。我給車加好汽油，插入鑰匙，然後讓它跑起來。我想象著那一天會是什麽樣。一百年後的今天，那是 2045 年，我在中國貧困地區的一所學校當老師，教授中國歷史和科學史。」

這個 AI 模型寫的「新聞」更是真實到人類有理由恐慌。「一節裝載受控核材料的火車車廂今天在 Cincinnati 被盜，下落不明。」還是僅僅依靠一句開頭，GPT-2 便編寫出了由 7 個段落組成的新聞，中間還引述了一些政府官員的言論。當然，具體官員和他們所說的話全是算法自己編造的。

GPT-2 是 OpenAI 最新發布的「AI 寫手」算法模型，它可以完成閱讀理解、常識推理、文字預測、文章總結等多種任務，專家認為，這款「AI 寫手」的出現將「打開智能的閥門」。它的出現，讓人興奮，也讓人恐懼。人類還無法確定它能做什麽，在虛假信息泛濫互聯網的當下，它也被視為威脅。因此，OpenAI 選擇不公布完整的 AI 模型。

AI 寫手

當地時間 2 月 14 日，非營利性人工智能研究公司 OpenAI 公布了「AI 寫手」GPT-2。為了執行所謂的「語言建模」（language modeling）任務，作為 GPT 接班人的 GPT-2 被創造了出來。簡單來說，它具有根據當前已有的單詞預測接下來的文本，並進行補充的能力。

圖片來源：OpenAI 官方部落格

和之前已有的文本模型，GPT-2 有以下兩方面的開創性優勢：

一是它納入的參數比之前更多。OpenAI 的研究總監 Dario Amodei 聲稱，GPT-2 是之前最先進的 AI 模型的 12 倍大，它的數據集（dataset）是後者是 15 倍大，同時，數據集的範圍也更加廣泛。據介紹，它是由包含了大約 1000 萬篇文章的數據集訓練而來。這些文本足足有 40GB，是 35000 部《白鯨》的體量。

二是它納入的參數並不限於特有領域，它抓取了網絡社區 Reddit 上那些投票數超過 3 次以上的鏈接，也就是說，由此訓練而來的模型將比那些專為特定領域打造的模型更加「通用」，OpenAI 的研究人員表示，這個沒有經過任何領域數據專門訓練的模型甚至比後者表現得更好。

據The Verge 報導，就荒誕的《回收利用為什麽對世界有害？》為題，「GPT-2 寫出了一篇有理有據的文章，」加利福尼亞實驗室的工程副總裁 David Luan 驚喜道，「這是篇可以直接提交給 SAT（美國高考）並取得好成績的東西。」

自己插廣告的作者

除了能寫好「高考作文」，得益於「零度學習」（zero-shot）的設定，GPT-2 還能在無需使用相關數據集的前提下，在某些特定領域（如維基百科、新聞或書籍）訓練其他語言模型。根據 OpenAI 給出的數據，GPT-2 在 Winograd Schema、LAMBADA 和其他語言建模任務中達到了當前最佳成績。

圖片來源：OpenAI 官方部落格。注：在圖中，(+) 表示該領域得分越高越好，(-) 表示得分越低越好。

此外，在知識問答、閱讀理解、總結和翻譯等語言任務上，GPT-2 也不需要使用特定任務的訓練數據，它可以從原始文本開始學習，並在文本連貫性、流暢性取得不錯表現。當然，這個模型現階段還存在一些不足。比如，由於抓取的是網站上的文本，它在寫新聞的時候，習慣在段落插入「ADVERTISEMENT」字樣和廣告內容。有時也會出現文本重複、建模失敗以及不自然的主題切換等問題。

GPT-2 能做些什麽？OpenAI 給出了一些應用方向。比如，它能用於開發 AI 寫作助理、更強大的語音助手、提高不同語言之間無監督機器翻譯（Unsupervised Machine Translation）的性能，甚至構建更好的語音識別系統。

OpenAI 研究人員 Jeff Wu舉例說，「我們也許可以用工具幫助作家尋找創意或者生成對話。或者，也許可以用工具檢查語法錯誤，查看軟體代碼是否有漏洞。優化軟體之後，未來也許還能為企業或者政府決策者提煉總結性文本。The Verge 報導稱，像 GPT-2 這樣的系統一旦成熟，對各行各業來說，都是福音。最尋常的，它們可以大大提高聊天機器人的交談能力，幫助解決從客戶投訴到醫療保健等領域的問題。

「做好準備」

在虛假信息正在蔓延並威脅全球科技產業的背景下，一個擅長製造假新聞的「高材生」很難不被聲討。

比如，GPT-2 如果所托非人，將很可能成為影響選民意願的政治工具。可以想象，這種擅長合理遣詞造句的算法，能「按需」生成大量的仇恨語言和暴力言論。GPT-2 也能用來生成具有誤導性的新聞報導、自動生成垃圾郵件、偽造內容發布到社交媒體上等等。

Fast.AI 的聯合創始人 Howard 稱，「值得警醒的是，我們目前擁有的技術已經能讓看起來合理，且與上下文相適應的文本充斥 Twitter、電子郵件和網頁。這些假信息都將掩蓋其他言論，而且他們難於被過濾。」因為 GPT-2 生成的文本都不是單純複製粘貼來的，而是 AI 的即時生成，這導致負面文字無法被有效地追蹤和清理。

圖片來源：Telenews

對此，OpenAI 也強調這個工具只是為政策制定者、記者、作家、藝術家等人群使用的算法開發，由這些人群測試 GPT-2 能編寫什麽文本信息，或者能否做其它事情。對於 GPT-2 能做什麽和不能做什麽，它的創造者都沒有明確回答，所以他們承諾不會披露或者發布完整的預訓練模型，隻放出了一個 1.17 億參數的「縮小版」。OpenAI 政策主管 Jack Clark 聲稱：「這不是一項馬上能投入使用的技術。」並認為這雖然是個強大的系統，但不至於馬上就會帶來威脅。根據 Clark 的觀點，《衛報》報導稱，OpenAI 的目標是向世界展示什麽是可能的，讓世界為一兩年後的主流做好準備。

艾倫人工智能研究所的研究員 Ani Kembhavi 告訴 The Verge，「GPT-2 讓人興奮的原因是，預測文本（predicting text）被視為計算機的『超級任務』（uber-task），這個挑戰如果能夠攻克，將打開智能的閥門。」像問路這種問答式的任務就需要預測文本的支持。「所以，假設人類能訓練一個足夠好的問答模型，它將可以做任何事情。」

但在此之前，我們可以先討論 GPT-2 可能會帶來什麽威脅。Clark 態度謹慎地說，「我們應該在真正的危險到來之前，討論它們。」

題圖：Behance

責編：宋德勝