每日最新頭條.有趣資訊

自然語言處理起源:馬爾科夫和香農的語言建模實驗

選自towardsdatascience

作者:Raimi Karim

機器之心編譯

參與:王子嘉、Geek AI

語言建模和文本生成是當下自然語言處理領域非常火熱的兩個研究課題。而早在百年以前,科學巨匠馬爾科夫和香農就對此進行了初步的探索......

1913 年,俄國數學家安德烈·安德烈耶維奇·馬爾科夫(Andrey Andreyevich Markov)坐在他聖彼得堡的書房裡,手裡拿著當時的文學巨著——普希金(Alexander Pushkin)在 19 世紀創作的詩歌小說《尤金·奧涅金》(Eugene Onegin)。

但是馬爾科夫並沒有真的在讀這篇著名的文章,而是拿起了一支筆和一張草稿紙,去掉了這本書的前 2 萬個字母中所有的標點符號和空格,記成了一長串字母。然後,他又把這些字母放進了 200 個網格中(每個網格有 10×10 個字元),並對每行每列中元音的數量進行統計,然後將這些結果進行了整理。

對於不知情的監視者來說,馬爾科夫的舉止略顯詭異。為什麽有人會以這種方式解構一部文學天才的作品,而且是解構成這種無法被理解的形式?

事實是,馬爾科夫讀這本書並不是為了學習與生活和人性有關的知識,他是在尋找文本中更基本的數學結構。

之所以要分離元音和輔音,是因為馬爾科夫正在測試他從 1909 年就一直在研究的概率論研究(https://www.americanscientist.org/article/first-links-in-the-markov-chain)。

在那之前,概率領域的研究大多局限於分析像輪盤賭或拋硬幣這樣的現象,在這些研究中先前事件的結果不會改變當前事件的概率。但馬爾科夫認為,大多數事情的發生都是有一連串的因果關係的,並且依賴於之前的結果。他想要找到通過概率化的分析對這些事件進行建模的方法。

馬爾科夫認為,語言就是這種系統的一個例子:過去出現的字元在一定程度上決定了現在的結果。為了確認這一點,他想證明在普希金小說這樣的文本中,某個字母在文本中出現的幾率在某種程度上是取決於之前出現的字母的。

因此才出現了本文開頭馬爾科夫統計「尤金·奧涅金」中元音的那一幕。通過這次統計,他發現 43% 的字母是元音,57% 是輔音。然後馬爾科夫將這 2 萬個字母分成元音和輔音組合:他發現有 1,104 對「元音-元音」,3,827 對「輔音-輔音」,15,069 對「元音-輔音」和「輔音-元音」組合。從統計學上講,這表明普希金的文本中任何一個字母,如果是元音,下一個字母很可能是輔音,反之亦然。

馬爾科夫用這個分析證明了普希金筆下的「尤金·奧涅金」不僅僅是字母的隨機分布,還存在一些潛在的可以建模的統計特性。根據這份研究產出的高深論文「An Example of Statistical Investigation of the Text Eugene Onegin Concerning the Connection of Samples in Chains」在馬爾科夫生前並沒有被廣泛引用,並且直到 2006 年才被翻譯成英語。

但它的一些關於概率和語言的核心概念已經在全球範圍內傳播開來,並最終在克勞德·香農(Claude Shannon)1948 年發表的極具影響力的論文「A Mathematical Theory of Communication」中發現了對這些思想的重述。

馬爾科夫論文:

https://www.cambridge.org/core/journals/science-in-context/article/an-example-of-statistical-investigation-of-the-text-eugene-onegin-concerning-the-connection-of-samples-in-chains/EA1E005FA0BC4522399A4E9DA0304862

香農論文:http://www.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf

香農(Shannon)的論文概述了一種精確測量消息中信息量的方法,從而為定義數字時代的信息論奠定了基礎。香農深深地被馬爾科夫的觀點所吸引:即在給定的文本中,可以估計出出現某個字母或單詞的可能性。和馬爾科夫一樣,香農通過一些文本實驗證明了這一點,這些文本實驗除了建立語言的統計模型外,還嘗試了使用該模型根據這些統計規則生成文本。

在最初的控制實驗中,他先從包含 27 個符號的字母表(26 個字母,加上一個空格)中隨機抽取字母以生成句子,並獲得以下輸出:

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD

香農說,這句話是毫無意義的噪聲,因為當我們交流時,我們不會以相同的概率選取字母。正如馬爾可夫所證明的,輔音比元音更有可能出現。但是在更高的粒度級別上,E 比 S 更為常見,S 比 Q 更為常見。為了解決這個問題,Shannon 修改了他的原始字母表,使得這個模型更精確地對英語的概率進行建模——他從字母表中提取出 E 的可能性比 Q 的可能性高 11%。當他再次從經過重新校準的語料庫中隨機抽取字母時,生成的句子開始跟英語有點接近了:

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA THEI EEI ALHENHTTPA OOBTTVA NAH BRL。

在隨後的一系列實驗中,香農證明了,當你把統計模型變得更複雜時,你得到的結果會越來越容易理解。香農通過馬爾可夫的理念揭示了英語的統計框架,並表明通過對該框架建模(通過分析字母和單詞相互組合出現的相關概率),這些模型可以生成真正意義上的語言。

給定文本的統計模型越複雜,語言生成就越準確——或如香農所說,「與普通英語文本的相似性」越大。在最後的實驗中,香農從語料庫中提取單詞,而不是字母,並得到如下結果:

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.

對於香農和馬爾科夫來說,「語言的統計特性可以被建模」這個觀點為他們重新思考他們正在研究的更廣泛的問題提供了一個思路。

對於馬爾科夫來說,它將隨機性的研究擴展到相互獨立的事件之外,為概率論的新時代鋪平了道路。對香農來說,這幫助他發現了一種精確的測量方式以及編碼消息中的信息單元,這個發現徹底改變了電子信息以及現在的數字通信行業。他們在語言建模和生成方面的統計方法也開創了自然語言處理的新時代,這一時代一直延續到今天。

第三屆機器之心「Synced Machine Intelligence Awards」年度獎項評選正在進行中。本次評選設置六大獎項重點關注人工智能公司的產品、應用案例和產業落地情況,基於真實客觀的產業表現篩選出最值得關注的企業,為行業帶來實際的參考價值。

參選報名日期:2019 年 10 月 23 日~2019 年 12 月 15 日

評審期:2019 年 12 月 16 日~2019 年 12 月 31 日

獎項公布:2020 年 1 月

獲得更多的PTT最新消息
按讚加入粉絲團