每日最新頭條.有趣資訊

防範AI最前線的OpenAI,開發了一個會寫假新聞的AI模型

「四月間,氣象寒冷晴朗,鍾敲了十三下。」當人類把《一九八四》這個著名的開頭輸入到

OpenAI 剛展示的語言算法模型 GPT-2

後,這個包含了 15 億個參數(parameters)的模型識別出了這種模糊的未來派小說基調,開始了創作。

「我開車去西雅圖找一份新工作。我給車加好汽油,插入鑰匙,然後讓它跑起來。我想象著那一天會是什麽樣。一百年後的今天,那是 2045 年,我在中國貧困地區的一所學校當老師,教授中國歷史和科學史。」

這個 AI 模型寫的「新聞」更是真實到人類有理由恐慌。「一節裝載受控核材料的火車車廂今天在 Cincinnati 被盜,下落不明。」還是僅僅依靠一句開頭,GPT-2 便編寫出了由 7 個段落組成的新聞,中間還引述了一些政府官員的言論。當然,具體官員和他們所說的話全是算法自己編造的。

GPT-2 是 OpenAI 最新發布的「AI 寫手」算法模型,它可以完成閱讀理解、常識推理、文字預測、文章總結等多種任務,專家認為,這款「AI 寫手」的出現將「打開智能的閥門」。它的出現,讓人興奮,也讓人恐懼。人類還無法確定它能做什麽,在虛假信息泛濫互聯網的當下,它也被視為威脅。因此,OpenAI 選擇不公布完整的 AI 模型。

AI 寫手

當地時間 2 月 14 日,非營利性人工智能研究公司 OpenAI 公布了「AI 寫手」GPT-2。為了執行所謂的「語言建模」(language modeling)任務,作為 GPT 接班人的 GPT-2 被創造了出來。簡單來說,它具有根據當前已有的單詞預測接下來的文本,並進行補充的能力。

圖片來源:OpenAI 官方部落格

和之前已有的文本模型,GPT-2 有以下兩方面的開創性優勢:

一是它納入的參數比之前更多。OpenAI 的研究總監 Dario Amodei 聲稱,GPT-2 是之前最先進的 AI 模型的 12 倍大,它的數據集(dataset)是後者是 15 倍大,同時,數據集的範圍也更加廣泛。據介紹,它是由包含了大約 1000 萬篇文章的數據集訓練而來。這些文本足足有 40GB,是 35000 部《白鯨》的體量。

二是它納入的參數並不限於特有領域,它抓取了網絡社區 Reddit 上那些投票數超過 3 次以上的鏈接,也就是說,由此訓練而來的模型將比那些專為特定領域打造的模型更加「通用」,OpenAI 的研究人員表示,這個沒有經過任何領域數據專門訓練的模型甚至比後者表現得更好。

據The Verge 報導,就荒誕的《回收利用為什麽對世界有害?》為題,「GPT-2 寫出了一篇有理有據的文章,」加利福尼亞實驗室的工程副總裁 David Luan 驚喜道,「這是篇可以直接提交給 SAT(美國高考)並取得好成績的東西。」

自己插廣告的作者

除了能寫好「高考作文」,得益於「零度學習」(zero-shot)的設定,GPT-2 還能在無需使用相關數據集的前提下,在某些特定領域(如維基百科、新聞或書籍)訓練其他語言模型。根據 OpenAI 給出的數據,GPT-2 在 Winograd Schema、LAMBADA 和其他語言建模任務中達到了當前最佳成績。

圖片來源:OpenAI 官方部落格。注:在圖中,(+) 表示該領域得分越高越好,(-) 表示得分越低越好。

此外,在知識問答、閱讀理解、總結和翻譯等語言任務上,GPT-2 也不需要使用特定任務的訓練數據,它可以從原始文本開始學習,並在文本連貫性、流暢性取得不錯表現。當然,這個模型現階段還存在一些不足。比如,由於抓取的是網站上的文本,它在寫新聞的時候,習慣在段落插入「ADVERTISEMENT」字樣和廣告內容。有時也會出現文本重複、建模失敗以及不自然的主題切換等問題。

GPT-2 能做些什麽?OpenAI 給出了一些應用方向。比如,它能用於開發 AI 寫作助理、更強大的語音助手、提高不同語言之間無監督機器翻譯(Unsupervised Machine Translation)的性能,甚至構建更好的語音識別系統。

OpenAI 研究人員 Jeff Wu舉例說,「我們也許可以用工具幫助作家尋找創意或者生成對話。或者,也許可以用工具檢查語法錯誤,查看軟體代碼是否有漏洞。優化軟體之後,未來也許還能為企業或者政府決策者提煉總結性文本。The Verge 報導稱,像 GPT-2 這樣的系統一旦成熟,對各行各業來說,都是福音。最尋常的,它們可以大大提高聊天機器人的交談能力,幫助解決從客戶投訴到醫療保健等領域的問題。

「做好準備」

在虛假信息正在蔓延並威脅全球科技產業的背景下,一個擅長製造假新聞的「高材生」很難不被聲討。

比如,GPT-2 如果所托非人,將很可能成為影響選民意願的政治工具。可以想象,這種擅長合理遣詞造句的算法,能「按需」生成大量的仇恨語言和暴力言論。GPT-2 也能用來生成具有誤導性的新聞報導、自動生成垃圾郵件、偽造內容發布到社交媒體上等等。

Fast.AI 的聯合創始人 Howard 稱,「值得警醒的是,我們目前擁有的技術已經能讓看起來合理,且與上下文相適應的文本充斥 Twitter、電子郵件和網頁。這些假信息都將掩蓋其他言論,而且他們難於被過濾。」因為 GPT-2 生成的文本都不是單純複製粘貼來的,而是 AI 的即時生成,這導致負面文字無法被有效地追蹤和清理。

圖片來源:Telenews

對此,OpenAI 也強調這個工具只是為政策制定者、記者、作家、藝術家等人群使用的算法開發,由這些人群測試 GPT-2 能編寫什麽文本信息,或者能否做其它事情。對於 GPT-2 能做什麽和不能做什麽,它的創造者都沒有明確回答,所以他們承諾不會披露或者發布完整的預訓練模型,隻放出了一個 1.17 億參數的「縮小版」。OpenAI 政策主管 Jack Clark 聲稱:「這不是一項馬上能投入使用的技術。」並認為這雖然是個強大的系統,但不至於馬上就會帶來威脅。根據 Clark 的觀點,《衛報》報導稱,OpenAI 的目標是向世界展示什麽是可能的,讓世界為一兩年後的主流做好準備。

艾倫人工智能研究所的研究員 Ani Kembhavi 告訴 The Verge,「GPT-2 讓人興奮的原因是,預測文本(predicting text)被視為計算機的『超級任務』(uber-task),這個挑戰如果能夠攻克,將打開智能的閥門。」像問路這種問答式的任務就需要預測文本的支持。「所以,假設人類能訓練一個足夠好的問答模型,它將可以做任何事情。」

但在此之前,我們可以先討論 GPT-2 可能會帶來什麽威脅。Clark 態度謹慎地說,「我們應該在真正的危險到來之前,討論它們。」

題圖:Behance

責編:宋德勝

獲得更多的PTT最新消息
按讚加入粉絲團