文檔相似性檢測工具

文檔相似性檢測工具是通過比對源文檔和目標文檔相似性給出相似度結果的一種信息處理系統。由武漢大學信息管理學院出版科學系教師瀋陽副教授研發的ROST文檔相似性檢測工具(為避免太敏感有時也叫相關性檢測工具)可有效檢測論文的抄襲相似情況,經過六年的研發(早期版本叫做網盜剋星),終於推出了6.0版本,在定版過程中得到了武漢大學多位專家教授的寶貴意見。目前已投入約20餘家單位測試和使用,反應良好,一定程度杜絕了有抄襲可能的論文發表問世。

目前的工作基礎

國家自科基金資助,國內外已發表反剽竊論文6篇: —— Empirical Analysis on Chinese Academic Plagiarism,Abstract Paper,JCDL 2009.6(數字圖書館領域頂級國際會議) —— Research on Anti-plagiarism System and the Law of Plagiarism, International Symposium on Education and Computer Science (IEEE ECS 2009),EI/ISTP,2009.3 —— ROST反剽竊系統在期刊領域的套用與進展第二屆數字時代出版產業發展與人才培養國際學術研討會 2008.11 —— System of Twice-Gathering Information and Research of Information Fingerprint Hashtrie, EGTA 2008,EI,2008.9  —— The Research of Anti-plagiarism Monitoring System Model,(Wisa2007)Wuhan University Journal of Natural Sciences Vol.12 NO.5,Sept.2007,937-940 Springer出版 —— 剽竊和反剽竊的對抗 中國教育網路 2008.9 專利授權1項: —— 基於計算機網路的防轉載或/和反剽竊監控方法(200610019074.5),2006.5.16 專利申請1項: —— 能加快反剽竊或轉載文檔檢測速度的方法(200610166577.5),2006.12.31,授權

系統

基本原理:反剽竊軟體自動將文檔切割為多個50到200字(可自定義)的小文本,通過混合引擎將其與188億個網頁和490萬篇文獻進行模糊匹配,標示出每個文本塊與文獻庫中的某些文獻的最大相似度。由此軟體統計出相似度≥95%(基本原封不動抄襲)與相似度≥80%(略作修改後抄襲)的字數所占總字數比例。我們把這個比例作為剽竊(相似)程度衡量指標。 系統需要XP系統,word2003環境。

優點

—— 覆蓋面廣,通過混合引擎覆蓋約188億個網頁和490萬篇論文。系統採用自研的ROST WebSpider和ROST SEAT算法實現了對網際網路和部分期刊網的廣度覆蓋。 —— 模糊檢測,柔性匹配,為防止抄襲者替換部分字元,刪除部分標點符號,系統通過相似度來進行判定。系統採用自研的ROST Similar算法實現高速相似性檢測和度量。系統採用自研的QingQing算法提取信息指紋,在P3、512MBPC上,分詞速度為13MB/S,已在網際網路提供評測版供業內評測。 本軟體檢測結果只能作為一個參考,可以使用表格右鍵導出詳細檢查結果傳送給被檢查本人,本軟體不對是否剽竊做結論,只是告訴你與現存文獻相似度高於80%的文字比例所占文章總數比例是多少。高於80%相似度的文字才是需要關注的。低於此值可以完全無視。 —— 規範引文及參考文獻去除,降低誤判可能性。 —— 自定義分塊檢測機制,將文章的每一文本塊與其他文檔的相似度都精確的表示出來了,每一文本塊約為50字至200字不等(可自定義),以紅色表示極度相似(相似度大於80%),一目了然,清晰醒目。當設為50個字一塊時,可以在較低信息粒度上查找出可能抄襲或相似的文獻。 —— 相似文檔模組跟蹤技術,可以通過簡單操作直接定位相似文檔中哪些內容被抄襲或者拷貝,直觀明了。 —— 結果分析功能,自動分析文檔相似結果,給出評價意見。 —— 多種檔案格式支持,包括PDF、DOC、PPT、XLS、TXT等文檔。  —— 專有數據檔案保存,不用反覆檢測,浪費時間。

缺點

—— 本反剽竊系統不能覆蓋世界上所有中英文文獻,關於覆蓋率與查全率的相關性問題,正在研究中。 —— 檢測時間略長,本軟體每檢測200字需要7秒鐘,一篇8000字的文檔至少耗費約5分鐘,需要一點點耐心。 —— 本軟體檢測結果存在一個小的誤差,用更小的文檔塊進行檢測,可以減少誤差,但需要的時間會相應增加,經過我們在多家編輯部的試用情況,塊數大小定為200字較為合適,此時誤差率也是可以接受的,文檔相似率一般是比實際的要低。 —— 在試用版中為了最大限度的檢測出各類不同學科的最相關文檔,本軟體在某些情況下存在誤判可能性,此時,用戶可以通過調整設定中的兩個參數來獲得不同的相似指數結果。如果正式使用,請聯繫我們調整參數,將系統調整為較嚴格匹配,後面我們針對這一點會進行軟體升級,並發行不同學科的版本。

相關研究

1993年,Arizona大學的Manber提出近似指數概念用於度量檔案之間字元串的相似性,這個思路被很多後來的相似系統所採用。1995年美國Stanford 大學的Brin 和Garcia-Molina在數字圖書館項目中提出COPS系統與相應算法,奠定了反剽竊系統的框架基礎。香港理工大學的Si和Leong建立CHECK原型採用統計關鍵字的方法度量文本相似性,並且首次把文檔結構信息引入文本相似性度量中。2000年Monostori 用後綴向量存儲後綴樹搜尋字元串之間的最大子串並建立了MDR原型。目前國外Turnitin公司提供的英文反剽竊服務遍及九十多個國家,檢索網頁數量超66億,用戶達650萬,支持世界最大的四家電子教學平台BlackBoard、WebCT、Moodle、Angel。 開發者爭取推出面向學生的免費線上防剽竊服務,防止無意識抄襲的發生。

相關軟體工具

ROST WebSpider ROST FulltextSearch ROST SearchEngine Analysis tools ROST WordParser ROST WordFrequency,等等, 共約20款小工具或軟體,目前網際網路約10000網站提供下載。

面向社會的服務

本系統和其他系統覆蓋文獻有80%以上不同,本系統通過混合引擎覆蓋188億個網頁以及490萬篇論文,建議用戶使用多套系統檢測論文。 由於伺服器壓力,目前不對學生提供檢測服務,對單位用戶和高校教師開放免費測試,

相關詞條

熱門詞條

聯絡我們