每日最新頭條.有趣資訊

盤點AI寫作歷史:AI取代人類文字工作還有多遠?

圖片來源@視覺中國

文 | 首席發言者

AI又出書啦,這次是本專業的教科書。

世界上最大的科技出版社之一,德國Springer(斯普林格)出版社於本月初出版了第一本完全由機器學習編寫的教科書——鋰離子電池:機器生成的目前研究摘要(Lithium-Ion Batteries: A Machine-Generated Summary of Current Research)。該書長達247頁,是AI總結出的鋰離子電池領域的近3年超150篇突出研究成果的摘要,圖文並茂。

該書署名作者Beta Writer是由德國法蘭克福大學(Goethe University Frankfurt)應用計算語言學(ACoLi)實驗室的AI研究人員開發的算法,此算法現能審閱給定主題的大量文獻並自動挑選重要的細節呈現。Spring計劃在未來利用該算法出版更多針對不同科研領域的書籍。

這本摘要式的教科書可以幫助相關科研人員快速了解這個熱門行業的最新進展,但對於普通人來說內容過於專業和遙遠。

本文討論AI寫作,下文中的AI特指寫作型AI。

不僅教材,段子、小說、劇本、歌詞、詩,AI寫作統統包攬

這次出版的教科書算不上是AI的驚天大動作,AI在文字創作上早已動作頻頻。

與我們日常生活聯繫最緊密的作文是新聞。常見的一些體育賽事、經濟行情、證券信息等快訊、簡訊類稿件背後可能是由AI編寫。AI不僅能發布事件和數據,還能搜索到相關科普知識和系列報導,全程無人執守,再加上自動配圖排版,與真人采編作品難以區分。

新聞類稿件缺乏文學性,難以體現AI創造性的一面。

AI也是段子手。上世紀90年代,就有程序員開發了名為JAPE的對話式段子生成器。之後,AI加持的升級版笑話生成器通過分析脫口秀的句式和笑點生成段子,團隊希望借此研究人為什麽會發笑。AI寫段子的同時還能輔助科學家研究人腦的笑神經。

AI早就寫過小說。2007年,紐約大學AI研究員Goodwin訓練了專寫小說的神經網絡,公路旅行時在車上安放GPS、攝影頭、麥克風傳感器作為輸入,旅行結束後一字未改發表了AI寫成的6千萬字《1 the Road》,被認為是第一本由人工智能寫的小說。該小說情節並不完全合理,夾雜著GPS定位數據,還有拚寫問題。小說雖然通不過圖靈測試,但用詩意的手法開辟了AI在文學應用上的新思路。

AI寫的小說還有機會獲獎。2016年,日本多個團隊挑選了幾篇AI根據指定關鍵詞和大體框架生成的科幻小說投稿了日本第三屆“星新一獎”,部分作品通過了不知情評委的初審。日本科幻小說作家長谷敏思表示,“能夠完整寫出小說太令人震驚了。如果100分滿分的話我給打60分,未來令人期待”。這次,AI不僅僅是通過圖靈測試,而是能與人類作家一較高下了。

AI做過編劇,劇本還被認真拍成短片。作為倫敦國際科幻電影節(SFL)48小時命題電影挑戰賽參賽影片,《Sunspring》的劇本是由Goodwin訓練的AI機器人Benjamin編寫的,講述了了未來世界3位主角的三角戀關係。本片請來了專業導演和知名演員出演,評價是喜憂參半,負面評論都是說它不知所雲,沒有意義,正面評價則認為這是AI的壯舉,沒有比AI編劇的科幻片更科幻的了。這次實驗,開創性大於最終成果的質量。

AI在詩歌上也有建樹。2017年微軟亞洲研究院的虛擬AI助手小冰寫的139首現代詩集結出版成了第一部人工智能詩集《陽光失了玻璃窗》。訓練樣本是1920年起519位中國現代詩人的所有詩歌。非專業人員讀起來覺得優美,難以和詩人寫的區分,但熟悉現代詩的人認為還有很大的進步空間。在歌曲上,小冰曾與不少電視台和互聯網企業合作推出單曲。

另外,其他的文體AI也是能輕鬆上手。比如,對聯、古詩詞往往使古代的才子想破頭,而由於有嚴格的對仗、格律要求,這類文體對AI來說卻更比白話文輕鬆。網上生成對聯、藏頭詩等等功能的網站早已不新鮮。

AI寫作背後,是一場AI技術進化史

AI有些文體能寫得很好,有些文體卻難以超越人類,這與它背後的程序算法是分不開的。以小說為例,早期使用RNN和LSTM訓練的模型網絡難以通過圖靈測試,而後期日本團隊使用的新型算法就能夠騙過專業評委。

對於自然語言的處理統稱為NLP(Natural-language processing),下又粗分為語音識別STT(Speech to text)、自然語言理解NLU(Natural-language understanding)和自然語言生成NLG(Natural-language generation)3塊。我們主要討論的寫作涉及到NLG和部分NLU。

早期,要讓計算機寫作需要預設模版。最初的模版就像我們英語考試中做的完形填空,人寫完文章後將會變化的部分扣空,再讓計算機根據數據填空。例如,氣象預報中常見的:某城市今日某氣象,最高最低溫度某某度,空氣質量某等級。為了不使用扣空的死板模版,科學家人為地將語法規則建模,這樣在表達相同意思時,句式可以在人前期設定的有限規則內有多種變化。

現在,AI運用的是統計學方法。通過輸入大量真實語料,使用概率統計,預測出詞匯最可能的排列組合,自動訓練出模型網絡。這個模型無需人工編寫,除了語法外,還包含詞性判斷、實體區分、關鍵詞句提取、情感分析等等。當有了模型就可實現NLP的各下遊任務,還可通過各種參數精細地控制NLG。

我們不討論實現細節,只看看現有最好的模型能力幾何。

自OpenAI開源GPT-1.0後,在其上改進的BERT和GPT-2.0是目前NLP業內最高水準。Google在18年10月開源的BERT模型破11項記錄,部分閱讀理解能力還超過了人類。今年2月OpenAI透露的GPT-2.0通過更大的訓練得到了比BERT更高的分數,甚至可以通過給定開頭續寫文章,無論是學術、新聞還是小說類型,官網公布的續寫示例都有模有樣,甚至在續寫“垃圾回收對世界有害”這樣的誤導話題時依然能侃侃而談。

國外模型對中文的理解能力稍差,國內也有本土化研究。漢字是少見的不通過空格區分詞匯的語言,在理解詞性和實體上需要特殊處理。百度PaddlePaddle項目今年3月發布了ERNIE模型,通過輸入百科、資訊、對話等語料庫和直接對語義知識進行建模,增強了模型語義表示能力,較BERT在中文上的效果更好。

綜上,AI技術一直在發展和進步,寫作技術也在不斷完善,目前已可以假亂真。

AI寫作行行都能用,應用場景全覆蓋

AI現已運用在許多方面以提升文字產出效率。

與日常生活聯繫較大的是相對機械的模版規範化寫作,如新聞稿、報告文學等等。

AI小編已經為多家報社和新聞機構所採用。國外有美聯社的WordSmith、華盛頓郵報的Heliograph和紐約時報的Blossom ,國內有新華社的“快筆小新”、 第一財經的“DT稿王”、《南方都市報》的“小南”、字節跳動的Xiaomingbot、騰訊財經的Dreamwriter,發展勢頭迅猛。

AI也在各處寫報告。辦事機構、谘詢公司等部分需要提供證明材料、詳細報告等等的場景並不全靠人工去撰寫每一份文檔,而是把相關數據輸入給NLG,由NLG根據規範生成。比如,在自助查詢機列印的個人征信報告就是NLG生成的。NLG大大提升了辦事和處理效率,能幫助機構更好地服務和拓展業務。

新聞裡提到的AI的摘要生成能力不僅僅能用於科研,與商業結合才能有更大的生命力。

AL廣泛運用在商業智能(Business Intelligence,BI)領域。Arria NLG、Automated Insights、Narrative Science等公司開發的NLG模型能夠做到將企業日常事務、財務信息等輸入AI,AI自動生成財務報表,包括目錄、圖表等結構,並能指出各盈利或虧損點和具體到某個業務的原因。公司日常運營能有這樣一個幫手,能減少無謂的做ppt報告的工作,並能幫助管理層及時調整策略。

AI在廣告上也能大戰身手。國外的Phrasetech等公司提供自動生成公司網站、產品介紹頁面、產品搜索結果摘要等服務。京東、阿里在2018年相繼推出了名為“莎士比亞”、“AI智能文案”的文案生成系統,能根據商品編號或關鍵詞自動生成多條產品文案,甚至能設置不同的風格。和AI排版、P圖相結合,能解決小公司或商家設計師和運營不足的問題。

AI不能完全勝任的場合,也可以通過更默默無聞的方式幫助人類。

AI寫作輔助也能夠提升人類的寫作效率。目前,百度、頭條等自媒體都有自己的人工智能寫作平台,主要用於後期根據語意糾錯。在寫作時,AI筆神這類產品能在每次輸入詞句後,根據語意反饋靈感詞雲、詩詞名言、小說情節摘要等信息,幫助作者獲得靈感、素材,使行文更加順暢。

除了商用,AI在日常生活中也能幫上忙。智能輸入法們在打字時不停地猜測之後的內容,有時打個開頭就能一路選候選詞打完一句話。哪怕是追星這類需求,利用NLG也能夠梳理出某個事件的來龍去脈和明星的生平履歷,全方位掌握明星的點滴。

綜上,AI已經在文字領域應用廣泛,已能部分替代或輔助人類的工作。

AI寫作實力超卓,在某些方面人類早已不是對手

AI接替人類已經慢慢成為現實,這與AI的特點是分不開的。

AI可以接收大量數據輸入。吾生也有涯,而知也無涯。人類作家的知識儲備和精力是有限的,當遇到未知領域就要去補充知識。而AI可以用數據挖掘出的全量數據信息作為輸入,能了解到各細枝末節,做到旁征博引。

AI對輸入內容客觀。AI不仁,以萬物為芻狗。人類由於自身經歷、知識水準不同,對於獲取到的內容、信息看法並不能做到完整、客觀。AI遵循訓練出模型網絡,完整分析所有輸入。同一個模型、參數下AI給出的結果是完全一致的,也就是說,同一個AI對任何輸入都使用同一套評價標準。

AI可以做到快速輸出。迅雷不及掩耳。AI借助現代計算機技術帶來的強大算力,能夠做到秒速作文。通過實時的數據挖掘、收集,立刻送至AI處理,瞬間就能輸出結果。相較人類編輯主動搜索、閱讀再到遣詞造句的時間,AI已經可以將時間成本忽略了。

AI能夠省去人工。昨日之日不可追,今日之日須臾期。AI做到了自動化或半自動化寫作。對於企業來說,人員成本可以節省下來。對於全人類來說,技術的進步把人類從枯燥、重複的勞動中解放出來,做其它富有創造性的事。

綜上,由於AI的種種優勢,在部分求快求準的寫作場景,人類被AI取代是必然。

當前AI寫作還是傻白甜,同時法律缺位時AI寫作技術還被人利用和濫用

現階段的AI還有不少局限性,社會對它的認識和接受程度也不高。

當前AI技術在用數據科學的概率統計方法去分析文學性的文章句子,以求達到人類相似的水準。從原理上,語言是有限字詞的排列組合,可以用數學方法解決。這條路已經通過實踐證實了部分可行性,但是否會在將來遇到瓶頸,現在沒有辦法驗證。

一個娛樂圈小熱點機緣巧合成了佐證。18年,一位交大博士李宏燁在電視節目上提出“相聲公式”嗆聲郭德綱,引發了社會大討論。他曾出版3本用數學方法研究相聲的書籍,理論體系完備。現場觀眾反應良好,但他說的相聲15年未火,此事過後再次銷聲匿跡。

目前研究出的AI還存在不少問題。

首先,AI所著文章質量偏低。魑魅喜人過,文章憎命達。AI在新聞等語言平實、嚴謹的文體與需要有情節和人物性格塑造的小說的表現差異巨大。AI撰寫的小說、詩歌等往往缺乏內在邏輯和情感,讓人看得雲裡霧裡。

其次,AI缺乏原創性。李杜詩篇萬口傳,至今已覺不新鮮。AI模型訓練完成後,句式等結構就確定下來了,雖然數量上可能較多,但是有限的。AI模型在使用時,所有的數據、觀點等信息都來自於輸入,通過刪選、重組流程輸出,不會有跳脫。

最後,AI訓練投入巨大。一飲一石者,徒以多為貴。要想AI模型好,目前算法要求的前期訓練成本是巨大的。訓練時用的語料庫要龐大,最好還要預刪選以提高質量。訓練時為了處理海量數據需要佔用昂貴的GPU計算時間。為了能更快地訓練,需要組建GPU機器學習集群來加速。目前,大公司做了這些工作並免費發布模型,但OpenAI閉源了GPT-2.0讓人擔憂這樣的模式是否可持續。

技術在發展中遇到問題,人類又如何去利用技術也出現了問題。AI作為技術,誰都可以利用。利用它做什麽,需要負起怎樣的責任,道德標準和法律體系還沒有完善。

AI可以用來做假新聞。無論輸入給AI什麽命題,AI都能寫出規規矩矩看似有理有據的文章,讓人真假莫辨。AI也無法通過聯繫相關部門或求助專家來確認數據和信息的可靠性,所以AI會相信所有的輸入。如果人為輸入虛假信息,AI會直接認可,這樣也會造成偏差。

AI可以用來洗稿。一篇原創的文章輸入,AI改變句子結構、語序,能輸出一篇轉述後的但沒有新價值的文章。AI洗稿在自媒體投稿、大學論文、報告撰寫都有旺盛需求。現在市場上出現了文章原創和偽原創、論文查重和反查重等官方和民間AI勢力的鬥法。

AI甚至被質疑操縱民主投票。無論是美國大選還是英國脫歐公投,都有聲音說是有勢力在社交媒體上投放精準廣告。AI能通過分析用戶的歷史,找出最適合他的拉票策略,通過NLG生成拉票文案配圖後推給他。比如,某社交網絡用戶不喜歡移民,AI就會根據移民話題生成諸如“留歐後英國將湧入多少多少的移民”等等文案持續刷屏,以此獲取搖擺選民的投票。這比傳統的、通過電視演講的拉票方式要高效得多。

法律不完善時,AI被濫用的方式層出不窮,以上只是一小部分。在立法過程中,不少問題都難以界定,一個爭論的焦點是AI作品的著作權歸屬問題。

AI使用的是程序員在科技公司編寫的程序,算法是專家學者在論文中公開的,訓練樣本又來自名著、百科、論壇評論等各處,產出的是程序員都不能理解的黑盒模型,最後公司又將模型開源了,使用模型的人是輸入的自己的數據。最終生成的文章著作權實在難以界定。

綜上,AI現在處於發展的初級階段,有各式各樣的問題亟待解決。

長期來看AI寫作,若大規模應用落地,未來可期

當前AI的水準較弱,但未來的潛力是可以預見的。

技術上,AI有望能創作。由於最核心的原理無法被證偽,並且現在AI重組、模仿能力已經得到證實,未來算法的優化和硬體算力的提升都可能使AI得到創作的能力。AI一旦獲得創作能力,文學、音樂、電視電影等行業因此會產生翻天覆地的變化。

應用上,AI未來能結合其技術實現更強大的功能,拓展使用場景。結合語音識別和數據挖掘技術,AI或能夠在演講直播、新聞播報等場景下進行實時的事實核查並同步輸出。結合圖像、音視頻識別技術,AI將能夠生成各種媒體的敘述性描述,將電影、電視、遊戲還原為小說、劇本、摘要,用戶對娛樂內容的挑選會更方便,也能同時照顧到一些殘障群體的娛樂需求。文字作為信息傳播的基礎媒介,可以挖掘的場景太多。

社會上,倫理、法律問題解決後,AI能夠掃除障礙,良性健康發展。濫用AI行為被遏製能加強大眾對AI的接受。著作權歸屬解決後能夠從實際收益去反哺技術的發展,AI取代了一部分工作的同時也會催生出新的產業和工作機會。

綜上,AI在廣闊天地下將大有所為。

結語

弱人工智能階段下想要AI進行藝術創作還不現實,但利用好現有技術優勢仍有可觀但應用價值。AI值得人們繼續深入研究,未來想象空間巨大。

獲得更多的PTT最新消息
按讚加入粉絲團