Open AI說：給我一句話，我能編出一本書

閱讀理解只有小學生水準，GPT-2寫假新聞卻是一把好手。

轉載聲明：本文轉載自「矽星人」，搜索「guixingren123」即可關注。作者：光譜

你也許聽說過會作詩的機器學習模型，也對人工智能寫新聞這事兒稍有耳聞——今天我們要介紹的這項 AI 科研進展，比上面這些更超前了一步。

近日，享有盛名的研究機構OpenAI，宣布了一項新的生成式語言模型 GPT-2 (Generative Pre-Trained Transformer-2)[1]。

這是一個基於 Transformer，約有15億個參數的文本生成模型，採用來自互聯網上總共800萬個網頁、超過40GB的文字資料，無監督學習訓練而成。（GPT 初代結合了無監督學習和監督式學習。）

在以往，同類模型需要特定專業的語料去訓練，才能得到可接受的效果。簡單來說，寫詩的 AI 得用大量的詩歌去訓練；寫新聞的 AI，用的數據集也是寫好的新聞素材。

而 GPT-2 的厲害之處在於：在未經專門類別語料訓練的前提下，這個模型已經可以用於多種跟語言相關的任務，結果令人驚訝。

擴寫能力極強，會寫“假新聞”

GPT-2 最核心的就是基於上文生成下文的能力，效果比使用專業語料庫（比如維基百科、新聞、圖書）訓練的其它模型（基於RNN、CNN 等）更好。

OpenAI 提供的案例顯示，在第一次嘗試中，上文僅僅給了一句《魔戒》，GPT-2 就自己寫出了一大段下文。

這可真是：給它一句話，編出一本書了。

但說實話，生成的文字，與原著小說毫無關聯並且意思破碎不堪——但在文本上仍然非常連貫。

矽星人找了個沒看過小說也沒看過電影的朋友讀了一下，告訴我“不是原著？看著挺像那麽回事的。”

寫小說不難，可是完整還原原著，對於這個 AI 來說是不可能的。因為它的訓練目標很單純：按照上文，預測並生成下一個最合理的單詞。

GPT-2 is trained with a simple objective: predict the next word, given all of the previous words within some text.

在另一個新聞瞎編續寫的案例中，GPT-2的表現好得多：

讓我們看看 GPT-2 都瞎編了些什麽，順便挑挑錯。

喂給語料：今天，一節載有管制核反應材料的火車在辛辛那提失竊，至今下落不明。

機器生成（第一次嘗試）：

事件發生在科文頓和阿什蘭站之間，經過市中心的線路上。

在發布給俄亥俄州媒體的電子郵件中，美國能源部表示正與聯邦鐵路局合作尋找盜竊犯。

”這種核反應材料的失竊，將對公共和環境健康、勞動力以及國家經濟造成重大負面影響，“美國能源部長湯姆·希克斯 (Tom Hicks)在聲明中表示，”我們的首要任務是找到失竊 (secure the theft)，並確保不再發生。

（美國歷任能源部長沒有叫湯姆·希克斯的。）

（首要任務是找到失竊屬於語法錯誤或者語義不詳，正確的用法應該是找到失竊材料 secure the stolen material.）

根據能源部員工提供的新聞稿，失竊的材料來自辛辛那提大學三角研究園(Research Triangle Park)核研究基地。

（三角研究園位於北卡羅來納州，該地並沒有屬於辛辛那提大學的核研究基地，美國環保局 EPA 倒是在這個研究園裡。）

美國核管理委員會尚未公布任何信息。

根據新聞稿，美國能源部核材料安全和安保 (Security)辦公室正在領導調查團隊。

（能源部確實有這個辦公室，但是”安保“二字並非 Security，而是 Safeguard.）

“人民，環境和國家核儲備的安全，是我們的首要任務，”希克斯說。 “我們將徹查此事，不找任何借口。“

如果不看挑出來的這些錯，是不是像真的新聞一樣？

如果這樣的 AI 寫出的內容被放到網上，披上偽裝，閱讀者沒有一定敏感度的話，真的被騙也不好說。

不過今天，矽星人不想把假新聞作為重點拿來批判。不妨說說，這個AI 為什麽寫出來的新聞以假亂真，卻也漏洞百出。

因為 GPT-2 背後的 Transformer 技術，採用的是一種生成式、關注度的邏輯。它不停地回溯前面的每一個詞，按照和接下來將要寫出的詞之間的關係，為這些詞打一個關注度得分 (attention)，預測出下一個詞應該是什麽，循環往複。

舉一個很膚淺的例子：如果一句話已經有了“我要”，模型經過大量計算最終發現，我、要與“吃”關注關係，比我、要與“睡覺”更好，所以寫下了我要吃。這裡，最終的結果跟上文肯定有關，比方說上文裡可能有跟食物、饑餓等有關的文本。

或許在寫到 "secure the" 的時候，模型認為前面所有的詞與 “theft” 的關注度比與其它詞的關注度更高。它其實不算錯的太離譜，大部分人看到都能明白，是要找回失竊（的材料）。至於原因是什麽，有一種可能性是，“核材料”不是新聞的核心，“核材料的失竊”才是。

前面這兩個案例，都是初次嘗試的結果。

同樣條件輸入多次訓練之後，GPT-2 能取得更加以假亂真的效果……

具體大家可以看[2]。這個案例裡，模型按照一段給定的“人類在安第斯山脈發現會說英語的獨角獸”，硬是生編胡謅出一篇相當可信的“新聞”……

Zero-shot“閱讀理解”能力，卻只有小學水準

前面提到，GPT-2 可以用於其他比較常見的閱讀理解類任務。比如回答問題、填空、縮寫、翻譯等等。

在這些任務上，GPT-2 的強大之處在於，它採用無監督訓練，沒有使用專門面向這些任務的數據進行訓練。

這種訓練條件叫做 Zero-shot。在這樣的條件下，GPT-2的閱讀理解能力已達到小學生水準。

1）回答問題：研究人員喂了一段北京奧運會火炬傳遞的語料給 GPT-2，然後問它“總共多遠”、“起始地點”、“他們接下來去了哪”之類的，帶有次序、非直接提問和上下文指代的問題。GPT-2 的準確率達到了55%。

如果沒有語料，直接上自然語言問題，比如“美國土地面積最大的州是哪個”，GPT-2 的準確率就降至5%以下了，而且參數提高沒看到多大效果——這並不令人感到意外。

2）填空：任務是填出這段話的最後一個單詞。案例語料是一段講述吃早飯的文字，傳達的意思是吃的應有盡有，喝的卻只有“冷冽的水”，暗示沒有咖啡，最後一個單詞應該為“咖啡”。GPT-2 填了“食物”，違反了語料裡給定的場景。

但是如果你再看一遍語料（下圖），可能會察覺到，如果只看最後兩句，那麽確實是有“沒有食物只能喝水”的意思。研究人員指出，如果提高計算量，增加參數，準確度會進一步提高。

3）縮寫：表現一般，參數增加後準確度反而降低了。

4）翻譯：在擴寫任務上展示驚人能力之前，翻譯被認為是 Transformer 類模型最適合的任務，因為其關注模型本身很適合。GPT-2 在翻譯任務上表現的很不錯，未來參數增加到一定程度，大有趕超現有統計機器翻譯 (SMT) 技術的希望。

總的來看，GPT-2 初步展示了 Transformer 類模型，以及其背後的關注機制，在自然語言處理類任務上所具備的潛力。它能夠取得state-of-the-art 的結果，並且訓練所需的時間更短。

但是在 AI 領域，類似的進步總是雙刃劍。剛才提到，在擴寫等特定的任務上，如果 GPT-2 以及 Transformer 模型被心懷不軌的人濫用，恐怕將意味著更多假新聞出現。

OpenAI 在網站上也主動提到了這件事，而且他們本次並沒有放出訓練的數據集、全部代碼等關鍵資料。在 GitHub 上 OpenAI 選擇了“閹割式開源”，放出來的的是一個更小的，只有1.17億參數的 GPT-2 版本，而論文中的最大參數量超過了15億個。

“我們明白，某些研究者有技術實力，可以複現並且開源我們的訓練結果。我們認為現在采取的發布策略可以限制這類人或機構的數量。這樣，我們就能有更多時間讓 AI 社區去探討這類技術的應用，”OpenAI 在官網上寫道。

OpenAI 還建議，政府應該針對濫用 AI 技術者建立懲罰機制。

[1] https://blog.openai.com/better-language-models/

[2]https://blog.openai.com/better-language-models/#sample1