教師解放新前沿：讓機器給作文打分

電腦智能的發展快速而高效。強大的工具迅速更迭，教師的工作效率也顯著提高。其中自動為文章打分的智能軟體便應用甚廣。作文是大規模語言考試中的必備題型。通過作文可以綜合檢測應試者運用語言的水準。當今的研究人員正努力研發機器人瞬時為書面文章評分。機器人評分的受益者包含慕課(MOOC)供應者，還有那些在標準考試中含有作文測試的地區等。

關鍵問題是，電腦能夠像文學家一樣，識別出作文中微小而關鍵的那些差別嗎？恰恰是這些微小的差別，區分出了普通的好文章和卓越精彩文章之間的差異。電腦能否捕捉到書面交流的關鍵要素，譬如合理性，道德立場，論證能力，和清晰程度？

自動評分的先驅——埃利斯·佩奇

1966年，電腦體積還很龐大，康涅狄格大學的研究員埃利斯·佩奇（Ellis Page）就率先開始了對自動評分的研究。電腦在那時是相對新穎的技術，主要用來處理最高級的任務。在佩奇同齡人眼中，利用電腦進行文本輸入而非計算數據更是新奇的想法。在當時的環境下，不管是從實用的角度、還是從經濟成本來看，利用電腦給作文評分這個想法都非常得不切實際。與同代的人相比，佩奇是個眼光真正長遠的人。

埃利斯佩奇團隊開發出第一套作文自動評分系統PEG(Project Essay Grader)。PEG(Project Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater是國外最具代表性的三種作文自動評分系統。

國外作文自動評分系統述評

作文自動評分是近三年自然語言處理中的熱點問題。大規模作文閱卷面臨兩大難題:其一,閱卷需要耗費大量人力、物力等資源;其二,評判作文品質具有很強的主觀性,閱卷的信度和效度不強。近幾十年來,隨著電腦硬體和軟體性能快速提高,自然語言處理等技術獲得了長足的發展,國外一批作文自動評分系統相繼問世,這兩個長期困擾大規模作文閱卷的難題有望得到解決。

（一）PEG——一個重語言形式的評分系統

PEG於1966年由美國杜克大學的Ellis Page等人開發。PEG的設計者們認為,電腦程式沒有必要理解作文內容,大規模考試中尤其如此。因此,他們在其網站上公開申明:“PEG 不能理解作文的內容”。在PEG的開發者看來,作文品質的諸要素是作文的內在因素,無法直接測量,因此,最為合乎邏輯的方法是從作文文本中提取一些能夠間接反映作文品質的文本表層特徵項。

概括起來,PEG的技術大體包括兩方面:其一, PEG使用的統計方法是多元線性回歸,以此來確定各變量的beta值,這樣,基於訓練集作文而構建的統計模型便可以用來為新的作文進行自動評分。這一技術合理而容易理解,後期出現的作文自動評分系統大多採用這一技術。其二,自然語言處理技術是PEG提取變量的主要方法。基於這兩種技術,PEG取得了很好的評分效果。

（二）IEA——一個重內容的評分系統

IEA是一種基於潛伏語義分析的作文自動評分系統,由美國科羅拉多大學的ThomasLandauer等學者開發。與PEG顯著不同的是,IEA的設計者們在其網站上申明:“IEA是唯一能夠測量語義和作文內容的程式”。據IEA的設計者們報告,潛伏語義分析主要分析文本的內容和學生作文中所傳達的知識,而不是作文的風格或語言。

將潛伏語義分析用於學生作文自動評分時,待評分的作文與預先選定的范文(訓練集)被視作為矢量, 對矢量進行比較之後,可以得到每一篇待評分作文與范文在內容上的相似度得分。該得分被直接視為機器評分或經過轉換後得到機器評分。

（三）E-rater——一個模塊結構的混合評分系統

E-rater是由美國教育考試處於20世紀90年代開發,其目的是評估GMAT考試中的作文品質。據Burstein et a.l(2001)、Cohen et a.l(2003)和Valenti et a.l(2003)的描述,E-rater自1999 年以來已經進入操作階段,至2003年,共評定作文 750,000篇。

E-rater的開發者們聲稱,他們的作文評分系統利用了多種技術,其中包括統計技術、矢量太空模型技術和自然語言處理技術(Valenti et a.l2003)。憑借這些技術,E-rater不光能夠像PEG那樣評判作文的語言品質,還能夠像IEA那樣評判作文的內容品質。除此之外,E-rater還對作文的篇章結構進行分析。

國內主要英語作文自動評價工具軟體

在國內，業已頒布的《國家中長期教育改革和發展規劃綱要(2010-2020年)》明確指出，資訊技術對教育發展具有革命性的影響，必須給於高度重視。到2020年，全國範圍內應該力爭基本建成覆蓋城鄉各級各類學校的教育資訊化體系，以促進教育內容、教學手段和方法現代化。就閱聽人群體龐大的英語教學領域而言，國內關於英語作文自動評價系統的研究起步晚，缺乏系統性的綜述研究。

（一）句酷批改網

由北京詞網科技有限公司研發，於2011年4月開始展開大規模使用。它是一個基於語料庫和雲計算技術的英語作文在線自動批改服務網站。批改網的核心算法是計算學生作文和標準語料庫之間的距離，再通過一個映射將距離轉化成作文分數和評語。核心技術點是將每一篇輸入的作文分析成可測量的192個維度，分析過程充分利用了先進的自然語言技術和機器學習的方法，每篇作文先被自動切分成句子，然後對每個句子進行深度的語義分析，從中抽取詞、搭配、詞組等結構化單元。主要功能包括:分數即刻顯現、圖文報表式作文分析結果、錯誤自動批改、點評細致入微、階段性進度報告、抄襲檢測等。

批改網是完全自主研發的國產軟體，從核心引擎到批改應用都是完全自主知識產權的。它體現寫作教學的多樣性，鼓勵學生的自主性學習、探索性學習、團隊式學習、研究型學習等教與學新模式。

（二）冰果英語智能作文評閱系統

杭州增慧網絡科技有限公司聯合浙江大學、外語教學與研究出版社，以及中外人工智能專家隊伍，依據語言教學理論、電腦網絡教育技術、大規模數據挖掘技術，研發出這一個性化智能化的作文評閱軟體。它可以即時給出作文評分，並從詞匯、語法、文風、內容等方面給出反饋。但是，該系統目前無法做到用戶同一篇作文多次反覆修改，多次提交給系統，並得到系統的即時評閱和反饋。

（三）TRP教學資源平台

經過對一線教師的調研及需求分析，高等教育出版社與清華大學楊永林教授的科研團隊合作研究，2010年10月正式對外發布了《體驗英語寫作教學資源平台》。 2012年3月，該平台的更新版產品《TRP教學資源平台》面世。它根據寫作教學需求，將數字化、網絡化與區域化教學平台進行了有機的整合，並涵蓋了資源建設、平台構建、寫作學習、句型練習、語法測驗、作文評分、寫作研究、評語生成、作為考試等功能。為高校英語教學的進一步改革提供了“專本碩博，四級貫通”的可操作平台。特別一提的是，學術寫作是該寫作軟體系統的特色版塊，從這一點來講，TRP教學資源平台似乎對於研究型高校的學習者來說具有更加特殊的意義。

國內中文作文自動評價工具軟體概述

根據作文自動評分的原理，可以得到電腦評分的工作機制：首先提取出反映寫作水準的特徵，然後利用這些特徵和數學模型計算出分數。並且確保這個分數最大程度的接近人工評分的結果。

漢語文字的電腦識別及加工能技術難題需要電腦領域的專家來攻克，而漢語的電腦自然語言處理技術有了突飛猛進的發展。例如由於中文詞語之間沒有空格分割，使用電腦進行分詞是進行自動評分研究需要解決的首要問題。隨著中文自然語言處理研究的發展，目前這一困難基本得到解決。中國科學院計算技術研究所在多年研究基礎上，研製出了基於多層隱馬模型的漢語詞法分析系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，該系統不僅完全具備了中文分詞的功能，還有詞性標注和未登錄詞識別的功能。ICTCLAS分詞的正確率高達97.58%(最近的973專家組評測結果)。另外北京大學、北京語言大學都有漢語自然語言處理工具成功開發，為漢語作文自動評分研究打下了基礎。

自動評分很好地做到了作文評價的客觀化，可以做到在不同的時間地點，在不同的電腦環境裡面對於同一篇作文的評價結果完全相同。使用這些系統進行作文評分，不僅提高了作文評價效率、降低了人工成本，而且從根本上消除了評分者之間的不一致。可以說，使用電腦進行自動評分是評價科學化發展的必由之路，是提高作文評分準確性和評分效率的最有效途徑。在美國Erater已經成功的在ETS組織的托福等考試中應用，而日本Jess研製的目的就是處理日本大學入試的作文評分。最近台灣也研發出了一套“中文寫作自動化評分系統”（ACES），該軟體能自動分析初中基準測試考生的作文程度，並給於6個等級的評分。

人工與智能，效率與品質的較量

當今時代，利用電腦自動評分的需求正在猛增。在人工審核流程中，每篇文章必須要有兩名教師打分，這樣的批閱成本很高，含有寫作部分的標準化測試批閱成本也愈發昂貴。這種高昂的成本已經致使許多州在標準考試中，放棄了重要的寫作測試。目前，自動評分系統還處在人機耦合的階段。許多低年級的標準化考試使用自動評分系統，已經帶來不錯的收效。然而，孩子們的命運並非完全掌握在電腦手中。大多數情況下，在標準化測試中，機器人評分員只是取代了其中一位必要的評分員。如果自動評分員的意見截然不同，這樣的文章就會被標記，並轉發給另一位人工評分員作進一步評估。這個步驟的目的是保證評估品質，同時也有助於提高自動評分技能。

EdX總裁Anant Agarwal稱，智能自動評分的優點不僅僅是能節省寶貴的時間。新技術所實現的即時反饋對學習也有積極影響。當今，人工給作文評分要花費好幾天、甚至是好幾周的時間才能完成，但是有了即時反饋，學生對自己的文章記憶猶新，可以立即彌補弱項，而且效率更高。

機器學習軟體剛開始應用時，教師必須將已經評好的幾篇文章輸入系統，作為好文章和壞文章的示例。隨著越來越多文章輸入，軟體就越來越擅長這種評分工作，最終幾乎就能提供專門的即時反饋。Anant Agarwal稱，需要做的工作還有很多，不過自動評分的品質已經很快接近真正教師的評分。隨著更多學校的參與，EdX系統的發展越來越快。截至今天，已有11所重點大學對這款不斷發展的評分軟體貢獻了力量。

自動評分的應用效果及發展前景

為了改善這種趨勢，2012年，威廉和弗洛拉休利特基金會（William and Flora Hewlett Foundation）讚助了一項自動評分的競賽，以數千篇作文為樣本，用六萬美金作為獎勵，鼓勵能智能取代教師評分的最佳方案。休利特基金會教育項目負責人芭芭拉·周表示：“我們聽說機器算法已經達到和人工評分同樣的水準，但我們希望創建一個中立且公平的平台來評估供應商的各種聲明。事實證明，那些說法並非炒作。”

自動評分的發展也吸引了慕課供應商的極大興趣。影響線上教育普及的最大問題之一就在於個人評估文章。一位教師可以為5000名學生提供授課資源，但卻不能對每位學生單獨進行評估。有人說現行教育體制已不完善，而解決這一問題正是向打破這種體制所邁出的一大步。在過去短短幾年中，評分軟體的發展突飛猛進，現在的評分軟體已可以在大學中上線測試使用。其中一個領先者就是慕課供應商EdX，同時也是哈佛和麻省理工旨在提高線上教育的聯合發起者。

休斯頓大學大學教育學院院長Mark Shermis教授被視為世界上自動評分領域的頂尖專家之一。在2012年，他指導了休利特競賽，對參賽者的表現印象非常深刻。154個團隊參加了競賽，一萬六千多篇文章拿來做了對比。冠軍團隊與人工評分者的一致度高達81%。Shermis的意見非常積極，他表示這項技術肯定會在未來的教育中佔據一席之地。從這次比賽以來，自動評分領域的研究已經取得了積極進展。

自動評分目前仍有幾項瓶頸和技術局限

（一）評分標準未統一

自動評分系統還沒有科學深入地研究人類分級機之間的評估差異，且個體間的差異性很可能非常大。很明顯的是，從最初主要依賴計算字數、檢測句子和單詞複雜性和結構的簡單工具，自動分級技術蒸蒸日上，有了很大的進展。

自動作文評分系統供應商是如何提出各種算法的這一問題深深隱藏於知識產權規章背後。然而，萊斯·派勒爾曼（Les Perelman），長期懷疑論者和麻省理工學院前大學生論文處主任有了一些答案。他花費十年時間用各種方法惡搞不同的自動分級軟體，並且在某種程度上發動了一場有關全面抵製這些系統的運動。分級軟體必須將不同文章進行比較，區分重點與非重點部分，然後將文章壓縮至一個數字以進行評級。相應的，文章必須是在一個完全不同的主題下與不同文章具有可比性。谷歌在比較不同目標文本和圖片與不同搜索術語的匹配度時使用了相似的策略。問題在於谷歌應用了數百萬數據樣本進行估值。而一所學校最多只能輸入幾千篇文章。只有擁有龐大的數據庫，這個問題才能逐漸得到解決。

（二）基於規則的弊端

由於電腦無法讀取，解決過度擬合最可行的方法是為電腦明確指定一套具體的規則，來檢測文本是否講得通。這一方法在其他軟體上都行得通。目前，自動評級供應商大量投入來制定這樣的規則，因為要制定出一條檢測諸如論文這樣創造性文本品質的規則十分困難。電腦傾向於用常見的方式解決問題：計算。

在自動評分系統中，例如，評分預測器可以是句子長度、單詞數量、動詞數量、複雜單詞的數量等。這些規則是否能做出合理的評估？至少派勒爾曼不這樣認為。他說，預測規則通常非常死板局限，限制了評估的品質。例如，他發現：

—長篇文章的評級會比短篇的評級高（自動評級倡導者馬克舍米斯教授認為這只是個巧合。）

—同複雜思想相關的具體詞匯，例如“並且”“然而”，都會使文章得到更高的評級。

—使用“貪婪”這種複雜詞匯會比使用“貪心”這種簡單詞匯評級高。

他發現規則很難應用或者根本沒有應用的另一些例子是這個軟體不能分辨真實性。

（三）信度和效度有待提高

作文自動評分的目的是利用多學科技術有效地模擬人工評分，以達到快速評定作文品質的目的。因此，在對電腦評分模型進行訓練時，訓練集作文人工評分的信度至關重要。只有有效地模擬具有較高信度的人工評分，電腦評分才有意義。根據Barrett(2001)和Stemler(2004)的研究，評分員間的信度達到r=0.70左右才是可以接受的，但現有作文評分系統在對訓練集作文進行人工評分時常常達不到這樣的信度要求，可能使得電腦評分模型很難模擬到人工評分的精髓。

評價對學生作文的評分是否合理，所需考察的另一個方面是評分的效度。對作文進行評分一般至少需要從作文的語言品質、內容品質和篇章結構品質三個主要方面對作文的整體品質加以衡量。自動評分系統在評分過程中並未能夠很好地兼顧這三個主要方面，因而評分的結構效度值得質疑。PEG雖然對作文的語言品質有著較強的分析能力，但忽略了作文的內容品質和篇章結構品質，因而其評分結果存在較大的效度問題。與此相類似，IEA突出了評分過程中作文內容的重要性，但忽略了作文的語言品質和篇章結構品質，顯然也存在較大的效度問題。與這兩種系統相比，E-rater雖然以其模塊結構兼顧了作文品質的三個主要方面，但每個模塊的分析能力尚可進一步提高。

參考：

AI In Education?—?Automatic Essay Scoring

https://edx-ora-2.readthedocs.io/en/latest/architecture/ai_grading.html

11月15日，雷鋒網聯合乂學教育·松鼠AI，以及IEEE教育工程和自適應教育標準工作組共同舉辦『全球AI+智適應教育峰會』。

本次峰會匯聚了國內外產學研三界頂尖陣容，屆時，斯坦福國際研究院（SRI）副總裁Robert Pearlstein、美國大學入學考試機構ACT學習方案組高級研究科學家Michael Yudelson等頂尖學者；VIPKID、作業幫、滬江網等國內著名教育創業公司創始人；以及Knewton、Byju's、DreamBox、Duolingo、ALEKS、AltSchool等國外最具影響力的AI智適應教育公司創始人將齊聚北京，共同探討AI智適應熱點話題，年度盛會，不容錯過！免費門票、VIP門票開放申請中，訪問大會官網即刻申請：https://gair.leiphone.com/gair/aiedu2018

雷鋒網雷鋒網