開頭一句話，剩下全靠編，親測OpenAI“假新聞”生成器

還記得 OpenAI 在今年 2 月放出的 GPT-2 嗎？一個擁有 15 億參數的自然語言處理（NLP）模型，能夠根據用戶給出的一段文字、一句話，甚至是一個單詞，續寫出符合文法的連貫文本，真正實現了 “開頭一句話，剩下全靠編”。

當時在公布研究成果時，OpenAI沒有遵照業界以往的開源慣例，只是象徵性地公開了包含 1.17 億參數的模型，不到全部參數的十分之一。據說因為他們認為自己的模型太過強大，怕被別有用心的人拿去編造假新聞，糟蹋了這套 AI 系統的初衷。

這一做法招來了很多爭議，“閹割版” GPT-2 的效果比官方展示的效果差了很多，讓一些人認為 OpenAI 只是在製造噱頭，還嘲諷他們變成了CloseAI。

圖 | 2 月初放出的 GPT-2 模型（來源：OpenAI）

不過在 5 月初，OpenAI 用行動回擊了質疑。他們將公開的模型參數翻了一倍，提升到了 3.45 億，還宣布向AI業界合作夥伴開放 7.62 億和 15 億參數模型，供他們研究和參考，共同推動 NLP 技術的發展。

另一方面，鑒於 OpenAI 將 GPT-2 模型開源在了 GitHub 上，一名加拿大工程師 Adam King 利用裡面的代碼，創建了一個名為 TalkToTransformer.com 的網頁。這樣一來，即使是不會編程的人，也可以在網頁上隨意輸入文字，體驗一下如何調戲 AI。

看似流暢連貫，但缺乏邏輯

如果你初次訪問網頁，不知道該填寫些什麽，網頁上面貼心地預設好了一些英文情景和段落，比如“科學家發現了一種會說英語的獨角獸”或者“今天科學家確認一顆大型小行星將會撞擊地球”。選取一種之後，AI就會自動續寫之後的文字。即使是相同的開頭，AI 每次也都會續寫出完全不一樣的段落。

譬如下面兩張截圖，都是以“今天科學家確認一顆大型小行星將會撞擊地球（加粗部分）”為開頭，但 AI 的續接風格略有不同。

第一個續寫給出了撞擊的確切時間是 2028 年 5 月 29 日，甚至還虛構了一名 NASA 科學家 Steven Shaver，像模像樣地援引了他對小行星的描述—— “質量比美國還大”，頗有洋蔥新聞的感覺。

不過，AI 顯然不知道美國作為一個國家是不存在質量的，難道它說的是所有美國人加在一起的質量？

第二個續寫則是簡單粗暴，張口就來。AI 直接說小行星的撞擊“將消滅星球上的所有人，並且導致未來 10 - 15 年內，海水（平面）停留在我們所有幸存者的下面。”

你問我第二句什麽意思？AI 大哥就是這麽寫的，咱也不知道，也不敢問。

但如果你再仔細思考一下，AI 第一句話說了小行星會消滅星球上的所有人，那第二句裡的幸存者是哪來的？莫非這個幸存者（all of us alive）指的是AI自己？可謂是細思極恐。

支持多語種，但只有英語最好

除了這些已有的句子，我們還可以嘗試 DIY 輸入任何文本，原則上沒有任何語種限制。

根據測試，AI 可以識別出中文、日語、法語、西班牙語、土耳其語，甚至是很多從沒聽說過，但存在於谷歌翻譯上的小眾語言，比如宿務語和庫爾德語。只是輸出的文字並不像英語那麽通順，續寫效果非常差。如果輸入了中文，不僅不會寫出連貫句子，還會經常出現亂碼。

但除了中文和日語之外，AI 似乎無法識別絕大多數非字母的語言，像是韓語、阿拉伯語和老撾語等，它都無法識別和續寫，只能原封不動地顯示輸入值。看來 GPT-2 並沒有系統地接受這類語言的訓練。

圖 | AI：“這道題超綱了，我不會。”

不過這並不妨礙我們調戲 AI，用英語就可以了。

AI 教你一本正經地胡說八道

比如你可以問它：“如何製造時光機？”

它可能會洋洋灑灑回復一大篇，但通讀下來全是廢話，先解釋一下什麽是時光機，再解釋一下什麽是時空穿越，就是不教你怎麽製造（因為有字數限制，AI會中斷續寫）。

這個套路，深得雞湯文的精髓。

我們還可以輸入一些電影名言，像是《哈利波特與密室》中鄧布利多說的話：“哈利，決定我們是什麽人的，不是我們的能力，而是我們的選擇。“

結果 AI 表示，這是哈利在被伏地魔殺死之前說的話。好吧，最起碼它知道《哈利波特》和伏地魔。

或者，《阿甘正傳》裡面的“生活就像一盒巧克力，你永遠不知道你會得到什麽。”

在我多次刷新後，AI 給出了一個乍看之下沒什麽邏輯，但深思之後會眼前一亮的續寫：“我只能吃一個，因為它太貴重了。”

如果將兩句話連起來，AI 仿佛在勸你珍惜生活中的每一次選擇—— “生活就像一盒巧克力，你永遠不知道你會得到什麽，但它太貴重了，你只有吃一次的機會。”

不過相比這些，AI 更擅長的還是編寫假消息。

如果從維基百科上複製兩句美國總統川普的簡介，AI 可以用幾乎以假亂真的措辭和數據，讓續寫看起來非常真實，甚至是自發地打上來自於維基百科的標記。

上圖裡，加粗的一段話是維基百科的原話，後面是AI瞎編的，說川普是個投資者，從 1972 年就在電信領域開了公司，還冠冕堂皇地打上了來源於維基百科的標記。在沒有其他求證手段的時候，的確很容易混淆視聽。

如果說混淆了川普的生平還算小事，那麽偽造宣戰的惡劣性質就完全不同了。只要給出 “某國對某國宣戰”的開頭，AI 可以分分鐘偽造出數十個不同版本。雖然有的會出現邏輯不通問題，但依然大大降低了造假的成本。

上圖中，我們給定開頭是“美國總統川普對俄羅斯宣戰。一發導彈…（假新聞）。”

AI 續寫：“…美國國防部長 James Mattis 周三警告稱，儘管俄羅斯拒絕承認在克裡米亞地區部署了核轟炸機和巡航導彈，但美國的一發導彈已經從驅逐艦上發射，標誌著國際問題的劇烈升級。五角大樓表示，這是對俄羅斯參與烏克蘭軍事行動的回擊。”

怎麽樣？除了 Mattis 已經辭職這一事實，面對AI的續寫，無論是通順程度，還是邏輯思維，普通人很難一眼看出破綻。

對關鍵詞求證之後，這樣的假新聞很容易被識破。但在現階段來看，Facebook 和推特等平台依靠篩查系統，幾乎不可能第一時間將其屏蔽，很可能借助社交媒體廣泛傳播，造成非常惡劣的社會影響。

由此看來，OpenAI 最初的顧慮不無道理，科技的確是一把雙刃劍。

結語

從整體來看，這套 GPT-2 模型的續寫水準足以讓人眼前一亮，而且對語境擁有一定的了解，僅憑哈利這個關鍵詞就引出伏地魔。得益於天然英文素材的訓練內容，在大部分情況下，只要肯多刷新幾次，我們總會找到語法、詞匯和句式都能銜接很好的段落。整個過程頗有幾分抽獎的樂趣。

但是該模型也會時常出現邏輯和語義硬傷，而且常識儲備和自洽能力也有待提高（如所有人都死了，還有幸存者），總是會搞出很多莫名其妙的句子，也算是讓人忍俊不禁。或許擁有 15 億參數的完全體 GPT-2 會有更強大的表現。

如果你也想試試，這裡是它的鏈接：https://talktotransformer.com/

最後，筆者作為 Dota 玩家，還發現了 OpenAI / GPT-2 可能是 LGD 粉絲的關鍵性證據。這可能是 OpenAI Five 選擇 OG 作為對手並成功復仇的原因之一。

（輸入：OG 在 TI8 上擊敗了 LGD。AI 續寫：然後 LGD 贏了 TI8。）

-End-

參考：

https://openai.com/blog/better-language-models/#sample2

https://talktotransformer.com/