風動雲遊

喜歡看書，睡覺，欣賞風景. 少時學理, 老來愛文.

首頁文章列表博文目錄

個人資料

lanxf126

給我悄悄話

博客訪問：

韓寒代筆探討（仡今為止最強技術貼）

(2012-01-31 16:41:28) 下一個

-轉貼 http://blog.sina.com.cn/s/blog_56fc0caa0100zp8d.html 韓寒代筆探討：強質疑、弱質疑、和忽悠（2月1日，注：讀完本文後，可以再讀@被打飛的《弱質疑和忽悠能“串”成強證據鏈嗎？並淺析陰謀論得以奏效的數學基礎》，更為明晰。）昨晚我放話說要就韓方之爭寫文章，一些朋友留言說期待大作、佳作、高作。這讓我很為難，吵起架來，嘴臉都是很難看的，不外乎是強調對自己有利的論據，無視對自己不利的證據，然後想方設法地拉攏旁觀者。頂多風度、策略有好壞而已。期待高人吵架，就跟看完武俠小說中的高手爭鬥後，到了現實裏，發現大家打架時也就是挖眼摳鼻。所以本文肯定是一篇不咋地的文章，請大家抱著輕鬆娛樂的心情觀看。對於質疑，我的看法是：韓寒是否代筆這個話題，屬於公眾人物的公域事件，無論方舟子，還是任何人，毫無疑問都有合理和無理質疑的權利。韓寒肯定很不樂意，但這是出名的代價。打誹謗官司的話，此案在美國恐怕贏麵不大，因為需要證明質疑者心懷惡意，很困難。至於中國這方麵法律如何我就更不清楚了。那麽，質疑在邊界在什麽地方，什麽樣的質疑會屬於誹謗或者名譽侵權？我覺得這是一個如何看待言論自由權利，和名譽權，之間的衝突的問題，名譽權的合理邊界，隨被質疑者的身份（公權者，公眾人物，普通人）而變，也隨大眾的認知而變，想要確切論個是非很困難。所幸本文不討論這個問題，我隻對“代筆質疑”一事中的網民心理和判斷感興趣。大眾判斷能力不提高，法庭出個結果，沒用。本來想到文章最後下結論，考慮到大家都比較關心站隊的問題。我就在文章開始就講吧。目前對韓寒代筆的質疑主要有四處：早期作品（求醫、書店），競賽作品《杯中窺人》，長篇《三重門》，博客。對代筆人的懷疑主要集中在其父韓仁均。我個人的判斷很明確：從目前已有的證據看，《杯中窺人》《三重門》等長篇，由韓仁均代筆的可能性非常小。而早期作品（求醫、書店），韓寒博客，雖文字風格和情景並不能確定作者，但質疑者並沒有能夠提出能讓我熊熊燃燒的八卦之心信服的疑點或邏輯推斷。善意推斷的話，我傾向於同樣是韓寒寫的。以下專門談“代筆質疑”這個事情，不談什麽包裝什麽韓三篇，當然更不談私生活。那些文後隨便講講。主要講我個人的邏輯判斷，希望對大家有幫助。明確一下定義，這裏“代筆”指的是有人代寫整段/篇文章，不是編輯或朋友訂正、修正少量字句的正常行為。 --------------------------------------------- 一、代筆人代筆，首先要有代筆人。一開始代筆人的說法有很多，比如有代筆團隊，路金波代筆等，但最後集中到韓寒父親韓仁均身上，這並非偶然，其原因是如下邏輯： (1).韓寒是個十多年發表了很多作品的暢銷書作家，《三重門》後公開發表的長篇，作品文風相似，也就是說，如果要代筆，必然存在長期穩定的代筆者或團隊。 (2).而這個長期的代筆者，如果能證明自己是韓寒這些暢銷書的代筆，其經濟收益是巨大的。 (3).所以根據(1)，(2)推論，如果存在長期代筆者，他（們）又十幾年都沒站出來自證，那隻可能與韓寒的關係超越這巨額利益之上的人。準確說，如果有代筆，隻可能是親人。這就是為什麽絕大部分質疑是針對韓仁均。因為所有其它的代筆嫌疑人，質疑方都會麵臨這個代筆者“巨額利益損失”難以解釋的困擾。下文討論質疑時，將把“如果有代筆者，那隻可能是韓仁均”作為前提條件考慮。二、“強質疑”，“弱質疑”和“忽悠” 1.什麽是“強質疑”？強質疑就是所謂的“鐵證”。比如你審論文的時候，看見一篇論文，裏頭有個作者自稱的原創段落，和幾年前別人已經發表過的一樣，在這種情況下，99.9%甚至更高的幾率屬於抄襲。因為無論作者是誰，出現這種情況，哪怕僅僅一次，都基本可以確認。因為偶然寫出一模一樣的段落的幾率可以忽略不計。除非一些非常意外的情況（比如早先投稿不中卻被當時的審稿人剽竊等）。在有強證據的情況下，被質疑方理應站出正麵解釋，如果沒有解釋或者其解釋無合理的證明力，一般可認定為“證據”。很可惜的是，在這場論爭中，尚未看見任何證明韓寒文章屬於代筆的“強證據”。 2.什麽是“弱質疑”？弱質疑就是“較少出現的情況”，5%，10%，20%。幾個或者十幾個同類案例中會出現一個。這種證據屬於疑點，算作“不利條件”，但是沒有太大的證明力。如果有更“強”的“有利條件”，那麽這個弱證據就不起作用。比如“韓寒一邊開賽車一邊發博客，所以不可能”，這是強質疑，但是“韓寒在賽車的前一天淩晨發博客，所以不可能”，這是弱質疑。具體的例子，比如：十幾歲小孩不可能寫出大人的角度與語言。文章引用太多名人文章與英文，中學生知識麵不可能這麽寬。有人說，雖然每個弱證據可能都隻有10%或20%的作家才會出現，比如引用名人文章和英文，《三重門》裏出現多處，這樣多個弱證據疊在一起相乘，出現的幾率不是很小麽？其實不能相乘，因為它們的起因往往是相同的。比如作家認為，我這部小說要模仿《圍城》，好好裝逼，多引用英文，這很好解決，因為引用並不需要閱讀原著，隻需要二次引用（比如從引用原著的一般性書籍，原著的評論，報紙甚至看過原著的朋友交談中）即可。隻要有了這個“起因”，那麽全書就自然會出現無數個這樣的“弱證據”，而“起因”相同的多個弱證據同時出現的幾率，並不比隻出現一個弱證據低上多少。（有人在這裏要問了，多個起因獨立的弱證據可以疊加麽？可以。但最容易犯的錯誤就是將弱證據連乘。實際上在總樣本量足夠大的時候，任何弱證據，無論發生幾率是10%還是5%。疊加時對於總體概率的影響非常微小。這也就是為何捕風捉影是無意義的。由於該數學結論是反直覺的，所以很容易成為邏輯陷阱。這話簡單寫不容易理解，詳細可以看本文開頭的文章鏈接，也可以看@奧卡姆剃刀的文章 http://www.weibo.com/1820201245/y3rN0uMNo 。另外，這個“疊加”實際上是個比較複雜的概率公式，不是簡單相加或相乘。）那麽對弱證據，一般的好反駁是什麽呢？就是提出比這個弱證據證明力要強的有利證據。如果有強的有利證據出現，那麽與之相矛盾的，弱的不利證據，就不成立了。類似的經典案例比如《鬼吹燈》，看過鬼吹燈的讀者應該知道，鬼吹燈是文革背景下的盜墓故事，作者的古玩、盜墓、文革見識經驗在書中表現的極其“豐富”，寫得活靈活現，該書極其暢銷，很多讀者應該都讀過。我當時讀完後，心想，五六十歲的老一輩還有這麽有趣的人，真想見見呢。結果最後發現，這個叫“天下霸唱”的家夥，不是個60歲的老頭，居然隻有28歲，聲稱這些東西都是自己瞎編的，平時也不喜歡看書，寫著玩的。一時天雷滾滾，這九成五是被代筆啊！很多讀者不能接受這個現實，於是質疑紛紛出籠，指責作者不是原著，最後發展到有讀者在福建某個小山村找到了真正作者的“遺稿”等等。對此，很快作者又推出了《鬼吹燈II》，質疑聲稍有止息，突然又出現爆炸性新聞，網友發帖稱，一個有名有姓的原著者站了出來，王閱枚，還找上了東海電視台，聲稱其子女02年送其《鬼吹燈》手稿到某報社編輯潤色，丟失。而網友也發帖列舉諸多事例，認為：“28歲的張牧野不可能寫出第一部《鬼吹燈》。第一部鬼吹燈中引用了大量70年代流行語，對於曆史、地理及風水堪輿等知識也不可能是瞎編的產物。而第二部的水平明顯比第一部差，是天下霸唱的狗尾續貂之作”。一時輿論大嘩，某網投票，大概有七八成的網友認為《鬼吹燈》乃是竊稿。到後來，記者探訪東海電視台，證實是假消息，做了澄清。而作者方對質疑做了冷處理。漸漸的，這些質疑也慢慢消失了。為什麽會出現這種情況？大家是如何判斷的？是這樣的： (1).第一次質疑，用的是一個弱的不利證據。你隻有28歲，完全沒有任何古玩、盜墓、文革的經驗，又不愛看書，僅憑著“瞎想”就想出了鬼吹燈，這屬於“很少出現的情況”，所以我們質疑你是竊稿。 (2).第一次回應，則是一個比這個不利證據更強的有利證據。你說我編不出《鬼吹燈》。可我這又編了一本《鬼吹燈II》。很顯然，連續竊稿兩本的幾率，這個幾率要比隻竊一本，小太多。構成了有利的強證據，與前麵的弱證據形成了矛盾。那麽強證據占了上風。 (3).第二次質疑。搬出了一個“代筆者”王閱枚，我有文革經驗，手稿我02年送去編輯部丟了，但我有證人，而且我站出來質疑你。這是一個比(2)更強的證據。並且其它質疑者反駁了(2)，你的鬼吹燈II比I寫的差很多啊，這不合常理。 (4).第二次回應。如果有手稿，那麽是比(3)更強的證據，但由於作者是敲電腦的一族，沒有手稿。隻有等，隨時間流逝，這個“質疑者”並沒有拋出更多的證據，這是不合理的，此時(3)這個強證據的級別，變成了普通流言，也就是弱證據。最後發現根本不存在這個報導，這個“弱證據”又變成了“忽悠”。於是這個質疑不戰自潰。那麽在韓寒這個案例中，對於弱證據如何考慮呢？ (1).質疑方的弱質疑是：小孩不會模仿大人說法，引用的書籍過多超出了閱讀量等。 (2).回應方的方法則應該是用矛盾的強證據覆蓋，這些強證據由弱到強包括： a.駁斥並進一步削弱對方的弱論據，比如小孩模仿大人說法，對方覺得很稀有，你可以舉出其它作家的例子，證明並不稀有。比如對方說，引用書籍過多，說明閱讀量覆蓋太大，超出了16歲少年的可能性。此時可指出其邏輯錯誤，文學作品中，有引用，不一定是讀過了原著，很有可能是讀了些二手作品（引用過原著的作品，報紙，講話等），也可能就是為了裝逼引用，隻讀了其中一小段。所以引用的書籍多，邏輯上並不證明他讀了那麽多。 b.指出對方的假設存在矛盾，這個矛盾所形成的問題強過其弱論據，並與之矛盾。比如說，弱質疑為：《三重門》中引用過多，韓寒不可能有這麽大閱讀量，隻可能韓仁均有。回應可以是：《三重門》之所以暢銷，是因為其中有很多90年代中學流行的段子，比如《臥石答春綠》，Wait and see。以及大量流行歌曲的歌詞等，這些不是上一輩人能夠進入並熟悉的，代溝的作用非常明顯。韓仁均寫出這些東西，並且能夠在青春小說類中極度暢銷，這遠遠比韓寒“裝老成”要更不可思議。 c.如果可以，就拿出更強的證據。比如和編輯的通信、手稿等。這些證據在未成名前偽造的幾率非常小，因為當時並不可能知道有何收益，而製作成本太大。大家要了解，代筆這件事，屬於隻能證實（比如有個家夥拿出證據說他是代筆），不能證偽（你無論如何都證明不了自己沒有代筆）的事情。但是，雖然不能徹底證明，但拿出更強的證據，能夠進一步降低你可疑的幾率。證據越強，幾率越低。有人說，手稿我也不信，我要麵談，對質，證明你真有這樣的水平和智力。這是毫無意義的。因為手稿是作家可能拿出的最強證據。如果這你也不認同，那麽什麽麵談這樣的弱證據就更不會認同了。這隻可能是浪費時間。 3.什麽是“忽悠”？忽悠指的是有50%以上幾率發生的事情，以及無法具備任何證明力的找茬。（這個50%幾率是為方便說明打比方，嚴格的講是“無法歸因”“因果關係不明確”）有人說，我找出你文中50個疑點，100個疑點。其實絕大多數都是忽悠。很簡單，質疑中，如果有強證據，一個就夠了，有智力的辯論者，隻會攻這一點。直到你回應為止。因為隻要這個強證據成立，那麽質疑就成立了。如果有弱證據，也不會很多，要是幾十個弱證據這麽多，早十年就被人發現了，還輪得到今天？如果有人說有幾十個弱證據，那麽其中大部分必然是忽悠。隻是為了迷惑旁觀者，並損耗對方的體力。要知道，世界上並不存在“清者自清”，所有質疑被澄清都需要付出很大的努力和勞動。很多被質疑者是被大量的質疑活活累垮的，所以體力戰是個很有效的戰術。那麽，如何對待“忽悠”呢？一般來說被質疑方隻能不理，或擇其一二回應。我隻說對於旁觀者，怎樣避免被“忽悠”。 “忽悠”往往存在邏輯上的問題。比如說： a.這件事，你和你父親回憶得不一樣，在某細節上，一個說A，另一個則說B。這麽重要的事情怎麽可能記錯呢？所以這事你根本沒現場經曆過，作假。文章是你老爸寫的。對於這個說法做邏輯判斷很簡單。首先，十幾年前的事情，雙方回憶不同，邏輯上的推論，最大幾率是有人記錯了，而不是“作假”，更不是“代筆”。其次，重要的事情，邏輯上並不能推出“不會記錯”。再重要也不可能違反人類的記憶規律，何況事件重大，但其細節並不重大，獲獎當然重大，考官拿了什麽紙。有啥重大可言？兩者邏輯上完全沒有聯係。細節記錯司空見慣。如果你找不出邏輯上的漏洞。判別“忽悠”也有簡單的方法。最簡單的方法就是把其它作家代入到這個“忽悠”語句的主體中，看看成不成立。一般來說，要構成一個“質疑”，必須有特殊性，也就是這個問題，隻有在被質疑者，或者極少有問題的作家身上，才存在。如果很大數量的作家都存在相同的問題。那這就不是一個“質疑”，而是一個“忽悠”。“忽悠”的特點是同樣的指責，可以針對任何一個作家，而且百試不爽。那麽說明這是個毫無意義的質疑。簡單的反駁方法是套用同樣的說法在其它作家身上，或直接套到質疑者自己身上，並指出該質疑依然成立。這樣就表示該質疑的推論在因果關係上是不明確的，邏輯存在問題。由於時間有限，例子就不寫了。 ---------------------------------------------------- 這裏加一段，說一下那個“詞頻分析”。那個詞頻分析在春節期間和幾個該專業的朋友寫了幾篇文章。簡要說一下。有人用主成份分析的方法，通過虛詞的詞頻模型，在韓寒、韓仁均，郭敬明、天下霸唱的作品集中運行，發現能成功區分天下霸唱，郭敬明的作品，卻不能區分韓寒和韓仁均的作品。這個說法頗有迷惑性。我們幾個人檢查了他的算法，一致認為，該作者在主成份分析前忘了做歸一化步驟。所以詞頻分析，變成了詞數分析。由於作品字數的差異最大，變成了主維度。正好，他選取的天下霸唱的一篇作品最長，郭敬明的兩篇作品其次，韓寒和韓仁均都是最短的，所以正好各自聚在了一起，造成了錯誤的實驗結果。我們重做了實驗，發現該方法並沒有區分性，這是個無效的方法。詳情請大家參見我博客中的真實結果圖片和幾篇文章鏈接。另外那個分析還有個錯誤，它聲稱成功地把郭敬明的《摯愛》和《夏至未至》識別在了一起。但《摯愛》並非郭敬明的作品。文章鏈接： http://www.weibo.com/1691279484/y2yTz2aNE http://www.weibo.com/1763695145/y2yuhrbKE http://blog.sina.com.cn/s/blog_56fc0caa0100zml1.html 結果圖像：原帖在：http://www.weibo.com/1734031341/y2xlN7nzD PCA可嚐試做更多維度，並在PCA之後嚐試正規的識別算法如linear classifier而不是靠手來做clustering，但從目前情況看，這些改進方案的結論也基本上屬於無效方案。 ----------------------------------------------------- 剩下的是感想，因為熬夜，不多寫了。 1.法律解決不了輿論問題。輿論問題還是要靠輿論。 2.邏輯是最重要的，這不是什麽文科邏輯和理科邏輯的問題，識別不了邏輯漏洞，不是對方邏輯嚴密，而是你邏輯不行。 3.科學的形式，並不一定代表科學，很可能隻是忽悠。 4.韓寒確實有不少包裝，這也是看這幾天辯論的感想。其初期回應不妥也不禮貌，徒惹麻煩。不過今天說代筆的問題，與此無關，就不說包裝了。 5.質疑的道德，如果說質疑有什麽道德，我列兩點：不忽悠。質疑被成功回應時，應協助澄清而非棄之不顧拋下一個質疑。

[ 打印 ]

[ 加入書簽 ]