每日最新頭條.有趣資訊

決定論文生死的查重平台們,原來是這麽判斷重複的

2019年的翟天臨論文造假事件,讓高校紛紛開始重視論文重複率。時至今日,他的微博底下依然繞不過這個話題。

“搞個抽獎吧,幫付查重費。”

網友Epochigo_在5月24日留下的這條評論,已經獲得了超過兩萬五千個讚。

畢竟對於準畢業生來說,論文查重不僅是對學業的要求,還是對生活費的威脅。

目前大多數高校的官方查重平台是中國知網。矛盾的是,知網並不開放個人檢測名額,許多學校也不會提供一到兩次的免費查重機會。因此不少同學都得在定稿前,憑借自己找的渠道,進行輪番幾次的查重和修改。

這些非官方渠道,如果是家喻戶曉的老品牌,價格不一定便宜。

而如果是在淘寶上盲找店家,就可能得擔著些風險。

掛著“知網官方”旗號的渠道,要麽買到的是假貨,要麽可能是通過非法手段弄來的免費名額。據《新京報》報導,有些在校學生知網账號被盜後,發現自己的免費查重機會已被不明論文佔用。

不明的第三方渠道,還會有轉賣論文的風險。澎湃號“真數”曾在文章中披露,一位同學懷疑自己的論文被查重網站出售,被他人買去作為本科論文提交,以致自己的論文在學校倒查畢業論文質量時,被發現查重率高達90%。

查重平台結果不一,知網分數偏低

哪怕這些坑都避開了,準畢業生們還會遇到一大天問:為什麽每個平台的查重結果都不一樣?下圖所示,六家查重平台對翟天臨碩士論文的查重結果,最大差距可以達到62個百分點。

因此,許多往屆畢業生會留下“Paper系比知網要嚴格”的印象。

這個印象或許是對的。

在知乎“PaperYY查重軟體靠譜嗎?”這個問題下,133名網友分享了自己的論文在中國知網和PaperYY的查重結果。可以看出,知網查出來的重複比重,大多情況下確實偏低。

但也有例外。

網友勿忘寫道,她舍友的論文,在PaperYY查出來的複製比重是4%,結果知網查出60%。對比兩份查重報告後,這位同學得出了一個結論:知網比PaperYY多了一個“大學生論文聯合對比庫”,而舍友恰巧採用了一個學姐論文的結構,內容也有複製,因此知網計算出的複製比重才會如此之高。

各平台區別:論文對比庫和查重方法

這位網友的結論,很可能是正確的。

論文比對庫的範圍是影響因素之一。比如,PaperPass免費版的重複比例經常偏高,學術不端網認為,這是因為PaperPass主要依賴網絡資源庫,在網絡上任何一句話都可能找到相似的句子,“最簡單的就像百度搜索一樣,每搜索一句話都會有一系列相關的內容出現”。

而知網則會更注重和學術論文的比對。下圖中,以知網包含的對比庫類型作為參照,可以看出,會被采納為官方查重的三家平台,比“Paper系”會更接近知網的配置。

每個平台的查重規則也不一樣,但“由於沒有官方聲明,所有的算法模型都是網傳”,堅果雲官方號在知乎問題“萬方論文查重怎麽樣 和知網對比”下寫道。

堅果雲進一步解釋道:知網的查重算法有兩個要點,首先,引用的文獻得佔到段落的5%及以上;滿足這個條件後,如果一個句子裡出現了連續13個字的重複,那麽這句話就會被標紅,即判定為抄襲。萬方的判定標準則相對簡單,如果一個句子中連續10個字與庫中文章重複,這個句子就會標紅。

這條判定規則的區別,基本上是各類查重平台分析的共識。

此外,知乎論文類大V吳志根在自己的專欄《論文查重降重攻略:學術論文重複問題剖析》還補充了一點。基於他的觀察,知網還採用了“語義模糊算法”,即比起逐字逐句,這套算法更關注句子的中心意思和關鍵詞。換句話說,同一段文字,如果只是換一套表述方式,那也是會被知網判定為重複的。

這些額外的查重規則,可能正是知網會顯得更“智能”的原因。準畢業生們只能通過其他平台的反饋,摸索著,一次又一次修正,去不斷地預測和逼近知網的結果。

獲得更多的PTT最新消息
按讚加入粉絲團