“再現”的定量分析 --- 阿岡本《散文的觀念》中“覺醒的觀念”一章中文文本相似度檢測

本帖於 2018-08-16 08:17:37 時間, 由普通用戶 papyrus 編輯

“再現”一詞,用在文本分析上,可以認為是一個文本在另一個文本中的再出現。再出現的程度,就是常說的文本相似度。
 
文本相似度可以定量分析,分析值可用百分比表示(或用0到1之間數值表示)。如果相似度為零,表示兩個文本毫無關聯;如果相似度為100%(或者是1),則顯示兩個文本是簡單的 copy & paste 關係。
 
文本相似度檢測越來越多地用在反剽竊、抄襲等等行為上。一般相似度在10-15%以下可以接受;如果相似度在50%以上,則可以斷定是剽竊抄襲無疑。
 
這裏有一個中文文本相似度檢測,簡單地計算兩個string之間的相似程度:

http://life.chacuo.net/convertsimilar

不妨以此計算一下阿岡本書中“覺醒的觀念”一章白輕(lightwhite)譯文(https://www.douban.com/note/300382510/)和“又譯文” 之間的相似度。

去掉多餘的英文詞和分段,不難得出本章第一部分兩個文本之間相似度為72.72% ,第二部分(原文和英譯都包括一大段拉丁文)兩個文本之間相似度為83%。

也可以說是“再現”度。

所有跟帖: 

Stupid is as stupid does, *_*。問好。 -文革傳人- 給 文革傳人 發送悄悄話 文革傳人 的博客首頁 (0 bytes) () 08/16/2018 postreply 19:08:50

哈哈,和這幾天那個紅芯瀏覽器的故事倒是不無同工之妙。解壓之後,發現連chrome文件名字都沒改 :-)) -papyrus- 給 papyrus 發送悄悄話 (0 bytes) () 08/17/2018 postreply 02:46:20

這不僅是蒼白了,你這是face都模糊了。哈哈哈。 -冰兵- 給 冰兵 發送悄悄話 冰兵 的博客首頁 (0 bytes) () 08/17/2018 postreply 17:15:47

已構成了誣陷 -英二- 給 英二 發送悄悄話 英二 的博客首頁 (0 bytes) () 08/16/2018 postreply 19:41:02

請您先登陸,再發跟帖!