每日最新頭條.有趣資訊

寫小說編假新聞太逼真 研究者都不敢公開AI完整模型

據彭博社報導,馬斯克倡導成立的一家AI研究機構OpenAI在2月14日展示了一款軟體GPT2。只需給這款軟體提供一些資訊,它就能源源不斷地編寫足以亂真的虛假新聞。而它的逼真性,甚至達到了令研究人員不敢公開完整模型的程度……

資料圖 圖自網絡

OpenAI表示,GPT2模型被惡意使用的風險過高,因此公司方面決定打破向公眾公布全部研究成果的常規慣例,以便有更多時間討論技術突破帶來的各種後果。

“對於這項技術,我想到了一個形容——來自地獄的自動扶梯。”OpenAI的政策主管傑克·克拉克(Jack Clark)告訴《衛報》稱。

“如果這樣的系統落在不法分子的手中,那麽,GPT2可能會成為一台挖掘機,挖出的只有無盡的痛苦和仇恨。”美國知名科技媒體The Verge評論道。

可寫小說、編報導,還能問答和常識推理

據《衛報》介紹,GPT2的核心實際上就是一個文本生成器,在被輸入從幾個單詞到一整頁不等的文本後,它可以對之後的內容進行預測並續寫。

事實上,類似的人工智能程式已不是首次出現。在2017年,一位名叫扎克·圖特的軟體工程師就曾讓人工智能“循環神經網絡”(RNN)學習《權利的遊戲》原著前五卷的內容,並續寫出了第六卷,引發了劇迷們的關注。

人工智能續寫的小說文本

人工智能在這次嘗試中也表現得可圈可點,許多預測與粉絲們一直以來的某些推測不謀而合。熟悉原著的讀者可以看出,無論文風還是原作者馬丁以一個角色名字作為開頭的寫作習慣,人工智能都較好地做到了“有樣學樣”。

只是,儘管時有亮點,但其續寫的稿件中仍有很多地方從情節和語法上看,都不知所雲。更重要的是,在劇情走向上,許多已經過世的角色甚至還會突然出現,讓人懷疑它對於文本的理解程度是否還停留在較為淺顯的層面,這也正是此前同類文稿撰寫人工智能程式的共同缺點。

而相較於它的前輩,此次OpenAI展示出的GPT2軟體則在產出的文本品質和潛在用途的廣泛性上,均有了顯著提高,甚至突破了人們此前對這類功能的想象邊界——

當GPT2用於生成新文本時,它能與給定的樣式和主題高度匹配,且文章也有足夠的可信度。它也很少有之前其他人工智能編撰文字時出現的“怪病”,比如寫著寫著就忘記自己要寫什麽,或者在長難句中語序不通順。

在公開展示中,當在GPT2中輸入喬治·奧威爾的《一九八四》的開場白 “四月的一天,氣象晴朗而寒冷,時鐘敲響了13下”後,系統隨即識別出這種基調和風格,並進行了續寫:

我正在驅車前往西雅圖,想在那裡找一份新工作。我把油加進車子,把鑰匙插進去,然後開始在路上飛馳著。我開始想象,那一天會是怎樣,那一天是100年後……

《1984》作者喬治·奧威爾 圖自Getty Image

而在“新聞”的寫作上,GPT2同樣表現出了自己的才華。

在提供給它一段《衛報》關於英國脫歐報導的前幾段後,它立刻拋出一篇報紙文章,其中有不少對傑裡米·科爾賓(英國工黨領袖)的“引用”,對愛爾蘭邊境問題的提及,以及首相發言人對於這一問題的回答。其中一段完全捏造的內容是這樣的:

特蕾莎·梅的發言人表示:“首相已經非常明白地闡述了她的意圖,那就是盡快退出歐盟,英國女王已經在上周講話中正式授權首相特蕾莎·梅的脫歐法案的談判。”

而除了續寫之外,GPT2還具備閱讀理解、常識推理、問答、生成文章摘要、翻譯等能力,並且根據數據顯示,在表現上均超越此前專為特定領域打造的模型。

驚人“大腦”背後:數據集的文本體量達40GB

那麽,GPT2為何能擁有如此驚人的“大腦”和創造力?

從研究角度來看,GPT2在兩方面具有極強的開創性。OpenAI的研究主管達裡奧·阿莫代(Dario Amodei)表示,其中一點就在於它的規模。GPT2的模型“相較以往大12倍,數據集相較於以往的AI模型也要大上15倍,範圍也更廣闊。它是在一個包含約1000萬篇文章的數據集上進行訓練,這個龐大的文本合計總體量達到40GB,折算成文字,相當於35000本《白鯨記》(超50萬字的長篇小說)的體量。

文圖無關 圖據彭博社

正因如此,GPT2接受的數據量,直接影響了它輸出文本的品質,使它對如何理解書面文本有了更多了解,這也導致了它在技術上的第二個突破,即GPT2比以前的AI的文本模型更通用。

通過分析輸入的文本,GPT2可以執行翻譯和摘要等任務,並通過簡單的閱讀理解測試,通常表現得與專門為這些任務構建的其他人工智能系統一樣好或更好。

政策主管:“它是來自地獄的自動扶梯

然而,這種品質也導致了OpenAI改變其推動人工智能向前發展的慣例——他們在評估了惡意用戶可能借此技術進行何種操作後,他們慎重決定,在未來的一段時間內將GPT2“關在門後”,不公之於眾。

“它可以生成連貫但不準確的虛假資訊,其目的並不是很好。”OpenAI的政策主管傑克·克拉克說,“我們需要進行試驗,看看它們能做什麽,不能做什麽。如果你不能預測一個模型的所有能力,那就必須要刺激它,看看它能做什麽。”

“畢竟,比我們更善於思考它能做什麽壞事兒的人,可比想象的多得多。”克拉克表示。

為了說明這到底意味著什麽,OpenAI製作了GPT2的另一個版本,並在其中做了一些適度調整。這一版本的GPT2可以用來產生無限量的正面或負面的產品評論,足以構成對市場評價體系的干擾。而由於人工智能未經過濾的本質,垃圾郵件和假新聞也是另外兩個明顯的潛在缺點。

由於GPT2是互聯網訓練的產物,因此,它更容易走上生產充滿偏見性、陰謀論文本的“邪路”。

“對此,我有一個形容——來自地獄的自動扶梯。”克拉克說。

針對這一技術,紐約大學電腦科學家山姆·鮑曼(Sam Bowman)解讀稱:“它根據提示生成的文本相當驚人。從品質上講,它所做的事比之前我們看到的複雜很多。”

彭博社介紹,實際上,對於語言處理技術,2018年可謂是成果頗豐的一年,在11月,谷歌開發出一種強大的算法BERT,可以理解並回答問題;在早些時候,艾倫人工智能研究所也在自然語言方面取得突破,開發出一種名叫Elmo的算法。

然而,軟體能夠編寫過分逼真的虛假新聞並不是好事,甚至在某種程度上更像是打開了一個潘多拉盒子。

因此,歐洲監管機構已多次向科技企業發出警告稱,如果科技公司不采取強有力的措施防止產品影響選民意願,政府就會采取行動。

而針對此次OpenAI開發的工具,克拉克和鮑曼都認為,它雖然功能強大,但也並沒有達到能立即帶來威脅的程度。“這不是一項馬上能投入使用的技術,應該說,這是好事。”克拉克表示。

紅星新聞記者 翟佳琦 編譯報導

編輯 汪垠濤

獲得更多的PTT最新消息
按讚加入粉絲團