每日最新頭條.有趣資訊

成功躲過高等數學,卻在畢業前愛上了數據挖掘

走進校園 是為了更好地走向社會

高考前,許多選擇文科專業的同學大都有一個共同理由——繞開令自己“痛不欲生”的數學。然而,三亞學院人文與傳播學院漢語國際教育專業的13名畢業生,無論無何也沒有想到,畢業論文選題時,卻跳入了數據挖掘的“坑”,運用大數據方法以新媒體計算為目標,開啟了自然語言處理的探索——用大學期間所學的語言學知識,融合了大數據科學、傳播學、社會學、旅遊學等學科理論和實踐,挖掘網絡評價文本的深層內涵。

更令人意想不到的是,他們居然通過編程累計獲取了600多萬字的語料,建立了若乾個語料庫,並把論文做得有理有據、有聲有色。

下圖為他們在論文中“算”出來的結果可視化呈現。

(景區四類實體中正面情感得分所佔比例)

(文本分析過程中繪製的圖表)

這個選題我喜歡

王昊宇同學是三亞學院人文與傳播學院2016級漢語國際教育專業的一名學生,從大二開始便對“計算語言學”相關的知識產生了興趣,課余時間閱讀了大量相關文獻,還自學了python編程。在準備考研時,經過谘詢相關老師後,把考研專業確定為計算語言學。

“在畢業論文選題時,發現有老師出了一個題目:XX旅遊景區網絡評價文本分析,我便毫不猶豫地選了這個題目。”在這個領域饒有興趣的王昊宇同學談及自己的畢業論文選題時,也頗為興奮。出於發自內心地喜歡這個題目,寫作過程中不僅很少“複製、粘貼”,而且把自己所學語言學專業知識與大數據、社會學、旅遊學等多學科知識相結合,對旅遊評價文本進行深度挖掘,論文體現了很多創新之處。

目前,該同學基於攜程網的旅遊評論,對成都市9個重點景區的評價文本進行了分析,已完成了長達三萬四千字的本科畢業論文。

(王昊宇同學論文中敘述編程的圖例)

同樣自學了python編程的還有黃靖玲同學,作為一名文科女生,主動學習python編程的確令人刮目相看。或許是因為自己提前get了這項技能,當發現老師們放出的畢業論文題目中有關數據挖掘的題目時,就特別想嘗試一下。

(黃靖玲同學論文中對詞語進行聚類分析的圖例)

我想嘗試一下這個從未接觸過的題目

李亞芬同學曾在院學生會通訊社工作,比較喜歡新媒體的傳播形式及其相關語言知識。當她看到有關文本分析的選題時,抱著嘗試的心理做了一個大膽的選擇。“我只是想嘗試新鮮事物,但是沒有什麽把握,此前我根本不知道什麽是‘數據挖掘’,‘文本分析’也只能理解字面意思,作為一個“小白”我不知道自己能不能做好這個題目”直到撰寫開題報告時,李亞芬同學依然有些忐忑。不過,喜歡創新的她一直充滿信心地搜集資料,在指導老師的引導下現學現用,直到最後,在某些應用軟體的使用上,她甚至可以帶“徒弟”了。

“我想試試,我覺得我可以!”同樣喜歡創新的付孟哲同學在選題前已經完成了一項“特殊任務”——堅持了一個學期每周寫5篇知網文獻閱讀筆記。最初這項“特殊任務”是出於“被懲罰”的原因,在她的第六個學期結束時,有一門課程結課論文做的不是太理想,老師建議她暑期閱讀20篇文獻並寫讀書筆記,作為一項特殊的“暑假作業”。

在“受罰”的過程中,付孟哲主動給自己加碼——在第七個學期每周完成5篇。所以,到畢業論文選題時,面對從未接觸過的題目,她充滿了信心,決定再次挑戰自己。令人意想不到的是,性格開朗外向的付孟哲,在對文本的“挖掘”過程中,表現出“心思細膩”的一面。對語料研究的非常透徹,運用聚類和關聯的方法,“挖”出杭州著名旅遊景點的很多重要信息並運用所學專業知識分析其成因。

(付孟哲同學利用百度指數與評價文本進行關聯分析的圖例)

不能只是簡單“嘗鮮”,還要自我加壓

按照選題說明,本組同學需要在獲取旅遊景區網絡評價文本的基礎上,建立語料庫,運用詞頻分析和情感分析兩種方法,對語料進行研究。在論文寫作過程中,多名同學隨著對數據挖掘、文本分析以及相關技術手段的深入了解,開始了各種“花式拓展”,比如劉益梅同學不滿足於指導教師提供的編程獲取景區網絡評價文本語料庫及其文本分析,而是自己手動獲取了相關景點的官方宣傳文本,自建語料庫,並進行對比分析。王昊宇同學作為本組唯一的一名男同學,自願擔起“技術總監”的責任,在某開放平台給出的詞雲圖基礎上,根據每位同學的研究對象自繪詞雲圖。

(王昊宇為本組同學繪製的詞雲圖)

在邊學習邊研製的過程中,除了向老師請教,還發動了身邊的朋友、學長給自己支招。王昊宇曾詼諧地說:“我朋友圈的理工男都恨不得集體把我拉黑,他們快忍受不了我的問題了。”說歸說,有問題時他的“朋友圈”依然會耐心地伸出援助之手。

周黎同學的研究對象是國內幾個著名玻璃景觀的評價文本,在挖掘語料的過程中,發現了一些景區高頻詞之間存在著某些聯繫,於是自己動手繪出了關聯結構圖。

(周黎同學論文中對高頻詞進行關聯分析的圖例)

在這些發現和思考過程中,同學們雖然感覺到很辛苦,可是一旦發現了新問題,總結出新成果,又感到非常開心、興奮。於是一稿一稿、一遍一遍地修改過程中,他們在不斷地發現新問題,找到新規律,挖掘高頻詞背後的社會意義。

(李亞芬同學論文中對文本進行實體抽取的圖例)

“被選擇”進入了這個組,論文做的有點辛苦

雙向選擇畢業論文選題,有些老師及其選題“手慢無”。當然,也有不太搶手的老師和題目。“當時由於沒有搶到心儀的老師和題目,只好選了這個。其實看到這個題目之前,我對這一切可以說是一無所知,對於能否完成這個選題,也是很茫然。”有三四名同學被問及選題緣由的時候,幾乎都遇到了同樣的尷尬境地。

四五個月過去了,當初“茫然”的同學也基本完成了將近兩萬字的文稿,雖然個別人的看起來還有些粗糙,但是初次“查重”就只有百分之十幾甚至百分之幾的重複率足以說明其論文的原創性——他們寫的都是自己思考的過程,自己總結的觀點,很少“複製粘貼”別人的文章。“我們也想參考別人的文章和內容,可是,沒有哇!全網搜不到可以複製粘貼的內容……我太難了!”個別同學也曾吐槽這個“中毒太深”的選題。

但是,無論私下如何吐槽,他們卻都在比拚著努力,誰都不甘心自己的新發現比別的同學少。靳雨萌等同學為了激勵自己還一度把自己的微信頭像換成了研究對象的詞雲圖。

總是擔心自己“跑偏”

從獲取文本、自建語料庫,到安裝自然語言處理相關軟體,再到文本分析,撰寫論文……一路走來,同學們總是擔心自己“跑偏”遠離自己的專業,在開題答辯時也被專家老師問到:“你懂計算機嗎?”,雖然當時不知道應該如何準確回答老師的提問,但是相信自己在老師的指導下和本組同學的共同努力下可以克服所有困難——這是幾位同學開題答辯後交流的內容。因為他們從來不擔心自己誤入計算機相關專業的“歧途”(這個太難了!)。

他們只是在應用一些自然語言處理的技術手段。不過,他們在寫作過程中還真數次遇到“跑偏”的危險,真正能夠迷惑到他們的不是轉向計算機專業,而是旅遊管理的內容。在查閱資料時,以某個景區為關鍵詞,查到的大多為旅遊管理相關的內容。“可是,我們是語言學專業啊,不能照搬旅遊學的論文,資料的有限性限制了我的借鑒率……”同學們在私底下也常常這樣吐槽。陷入“借鑒”絕望境地的他們,只好埋頭於自己的語料庫,把語料細分,讓可視化效果更好,觀察、研究每一個高頻詞存在的原因、揭示的意義。

(根據研究對象自建語料庫)

“在這次論文的寫作中,我深刻意識到了不斷學習的重要性。在此之前,我對大數據僅停留在簡單的認知層面,是老師教會了我如何利用這些寶貴的資源,如何使用詞頻分析及情感分析軟體,這些技能將成為我未來工作生活中的特長之一,也能提高我在同齡人中的競爭力。”付孟哲同學在論文的致謝部分表達了自己的付出與收獲。她憧憬著自己在畢業論文寫作中的收獲的技能可以提升走向社會的競爭力。

涉及全國近二十個省78個旅遊景區約六百萬字的網絡評價文本語料庫,就這樣被13名同學“分割”、挖掘、研究、發現……最終完成了平均每篇近2萬字的本科畢業論文。

在論文寫作的過程中,雖然涉足的是全新領域,但恰恰是這種“新鮮”推動他們在經歷了近半年獨立思考的“煎熬”之後,完成了一個學術“小白”的蛻變。在以後的工作中,遇到新問題、解決新問題將會是每個真正有學術志趣和研究精神的人的常態,也是一個人自我能力不斷提升的過程。論文完成的過程,是畢業前的一次蛻變,還有更為高遠的天空等待飛翔。

美編 | 張雅潔

來源 | 人文與傳播學院

為跨領域鑽研的他們點讚

獲得更多的PTT最新消息
按讚加入粉絲團