“再現”的定量分析 --- 阿岡本《散文的觀念》中“覺醒的觀念”一章中文文本相似度檢測

來源: papyrus 於 2018-08-16 05:47:55 [檔案] [舊帖] [給我悄悄話] 閱讀數 : (1525 bytes)

本帖於 2018-08-16 08:17:37 時間, 由普通用戶 papyrus 編輯

“再現”一詞，用在文本分析上，可以認為是一個文本在另一個文本中的再出現。再出現的程度，就是常說的文本相似度。

文本相似度可以定量分析，分析值可用百分比表示（或用0到1之間數值表示）。如果相似度為零，表示兩個文本毫無關聯；如果相似度為100%（或者是1），則顯示兩個文本是簡單的 copy & paste 關係。

文本相似度檢測越來越多地用在反剽竊、抄襲等等行為上。一般相似度在10-15%以下可以接受；如果相似度在50%以上，則可以斷定是剽竊抄襲無疑。

這裏有一個中文文本相似度檢測，簡單地計算兩個string之間的相似程度：

http://life.chacuo.net/convertsimilar

不妨以此計算一下阿岡本書中“覺醒的觀念”一章白輕（lightwhite)譯文（https://www.douban.com/note/300382510/）和“又譯文” 之間的相似度。

去掉多餘的英文詞和分段，不難得出本章第一部分兩個文本之間相似度為72.72% ，第二部分（原文和英譯都包括一大段拉丁文）兩個文本之間相似度為83%。

也可以說是“再現”度。

您的位置：文學城 » 論壇 » 品茶小軒 » “再現”的定量分析 --- 阿岡本《散文的觀念》中“覺醒的觀念”一章中文文本相似度檢測

所有跟帖：

• Stupid is as stupid does, *_*。問好。 -文革傳人- ♂ (0 bytes) () 08/16/2018 postreply 19:08:50

• 哈哈，和這幾天那個紅芯瀏覽器的故事倒是不無同工之妙。解壓之後，發現連chrome文件名字都沒改 :-)) -papyrus- ♂ (0 bytes) () 08/17/2018 postreply 02:46:20

• 這不僅是蒼白了，你這是face都模糊了。哈哈哈。 -冰兵- ♀ (0 bytes) () 08/17/2018 postreply 17:15:47

• 已構成了誣陷 -英二- ♂ (0 bytes) () 08/16/2018 postreply 19:41:02

請您先登陸，再發跟帖！