“再現”一詞,用在文本分析上,可以認為是一個文本在另一個文本中的再出現。再出現的程度,就是常說的文本相似度。
文本相似度可以定量分析,分析值可用百分比表示(或用0到1之間數值表示)。如果相似度為零,表示兩個文本毫無關聯;如果相似度為100%(或者是1),則顯示兩個文本是簡單的 copy & paste 關係。
文本相似度檢測越來越多地用在反剽竊、抄襲等等行為上。一般相似度在10-15%以下可以接受;如果相似度在50%以上,則可以斷定是剽竊抄襲無疑。
這裏有一個中文文本相似度檢測,簡單地計算兩個string之間的相似程度:
http://life.chacuo.net/convertsimilar
不妨以此計算一下阿岡本書中“覺醒的觀念”一章白輕(lightwhite)譯文(https://www.douban.com/note/300382510/)和“又譯文” 之間的相似度。
去掉多餘的英文詞和分段,不難得出本章第一部分兩個文本之間相似度為72.72% ,第二部分(原文和英譯都包括一大段拉丁文)兩個文本之間相似度為83%。
也可以說是“再現”度。