文 | 闌夕
雖然DeepSeek-R1確實好用,但它在爆火之後,成了人手一個的AI工具,也對中文互聯網的信息環境造成了嚴重的汙染情況,這是一個固然難以避免但也理應得到重視的問題。
最近一個星期以來,就我看到的刷屏文章,至少有三例都是DeepSeek-R1生成出來的、充滿了事實錯誤的內容,卻因其以假亂真的迷惑性,讓很多朋友信以為真,情緒激動的分享傳播。
第一例,是知乎的這條高讚回答:
即使在我指出來之後,依然有人不可置信的表示,看不出來其中的「AI味」,所謂的「AI味」,指的是DeepSeek-R1創作文本時特有的「極繁主義」,比如生造概念、堆疊名詞、濫用修辭等等。
而這條知乎回答,或因提示詞喂得好,或因後期潤色得力,在很大程度上消除了它的「AI味」,但從表達結構上,經常和AI打交道的用戶都能一眼看出痕跡,純正的DeepSeek-R1風格,當然普通人確實難以識別。
不過我也不是直接得到這個結論的,在看到朋友分享這條回答時,我原本也和他一樣,是帶著對於國產動畫電影崛起的興奮全盤接受了如此言之有物的論證,直到一個致命的紕漏讓我察覺到了不對勁。
作者說哪吒電影裏的敖丙變身鏡頭在法國昂西動畫節上轟動業界,問題是,法國是有一個昂西動畫節,哪吒的電影也是送去參展過,但那是追光動畫出品的「哪吒重生」,而不是餃子導演的「哪吒」……
而且因為審核原因,這部送展的「哪吒重生」宣傳片實際上是一部品牌概念片,內容是在一個現代都市裏的賽車動作演示,哪吒根本就沒出現,更不存在敖丙的變身……
繼續查證也能發現,關於「哪吒」的製片方給員工分成都房子、攻克水下流體特效之類的描述,全都是DeepSeek-R1為了完成這篇命題作文自己腦補的。
第二個例子,就更離譜了,離譜到我不太能把完整截圖發在這裏,因為有些膽子夠粗的自媒體,已經在拿DeepSeek去寫涉軍涉政的東西了。
其中有一篇寫軍工打虎譚瑞鬆的選題,標題是《軍工虎譚瑞鬆,
從“道德標兵”到“獵豔狂魔”,“國之重器”淪為私人金庫》,原文現在已經被刪了,應該是被被轉得太廣作者害怕了,但很多「金句」的截圖還在到處傳,什麽直升機的設計圖紙在暗網裏開價200比特幣出售、收受金條賄賂時要求熔成發動機葉片形狀、某總師離職時留言這裏不是造飛機的地方而是造孽的工廠等等,如果你能記得這些細節,就一定知道我說的是哪篇文章。
不好意思,這也全都是DeepSeek-R1自己編的。
為什麽我能確信是DeepSeek-R1的手筆呢?為什麽不能是ChatGPT、Claude、文心一言?因為DeepSeek-R1是當前唯一能用的免費推理模型,且對中文的支持度足夠高,這本來是DeepSeek-R1的優勢,隻是沒被用在正道上。
此時就需要補充一個推理模型的特點了,那就是推理模型的訓練過程特別注重獎懲機製,通過思維鏈的暴露我們也能看出它通常都會想得縝密、生怕自己沒有摸清用戶意圖,以致於經常到了「諂媚」的程度。
這種訓練模式的好處在於,可以讓推理模型擁有舉一反三的能力,能夠更加靈活和完善的去完成任務,但是相對的,為了完成任務,推理模型也會在「不自知」的情況下,同時表現出欺騙性,當用戶要求它寫一篇作文時,哪怕缺少論據,它也會為了不辜負用戶的指令,去自行編造一些材料出來,以便於自圓其說。
這就是大模型行業至今仍在致力於解決的「幻覺」現象。
上圖就是一個經典用例,用戶為DeepSeek-R1設立了阿裏估值邏輯改變的靶心,於是DeepSeek-R1就逼迫自己去對著靶心射箭——它不會也不能反駁用戶,或是質疑阿裏的估值邏輯到底變沒變——於是就「情不得已」的編造出了可以用來證明用戶觀點的數據。
根據Vectara發布的大模型幻覺排行榜,DeepSeek-R1的幻覺率達到了14.3%,遠高於Deepseek-V3的3.9%,也在所有主流模型裏屬於較差的一檔。
按理來說,R1是比V3更新、更強大的模型版本,之所以反而表現得更加拉垮,還是因為推理模型比普通模型先天就更加具有「創造力」,其實在AI研究領域,幻覺本身並不是單純的缺點,甚至可以說,幻覺就是科學家們希望在AI身上看到的所謂意識,隻是我們還沒有把AI調教得當,讓它在該天馬行空的時候自由創作,在該遵守事實的時候有理有據。
所以我的這篇文章也不是在說DeepSeek-R1有問題,而是濫用它來批量化生成真假難辨的信息、並海量投放到公網的這種行為,問題很大。
越是公共討論聚集的地方,比如時政、曆史、文化、娛樂等領域,越是重災區,這和自媒體的商業模式有關,有流量就有收入,流量取決於內容的吸引力,同時內容又受到生產成本的限製,而當DeepSeek-R1這種降維打擊的武器被交到了每一個人手裏,失控就是不可避免的了。
第二個例子裏的作者大概是察覺到流量太高也容易出事,已經會在新的文章裏——依然都還是DeepSeek-R1寫的——加上一條下麵這樣的聲明,不過隻能說聊勝於無,很少有人會注意到並理解這句話的意思——上麵的內容有一半是我編的,但我不告訴你們是哪一半。
事實上作者也確實不知道DeepSeek-R1交稿的內容裏哪些是真哪些是假,他可能會提供一些參考資料,以及開放全網搜索的權限,但就像我說的,推理模型的運作模式,決定了它不是簡單的洗稿,而是會自行完善故事的骨架和細節,最後的結果就是真假參雜,迷惑性反而更大了。
第三個例子,是曆史博主知北遊的豆瓣記錄,簡單來說,是有人拿虛構的曆史材料,布局七天來釣他上鉤,如果不是他本身具有很強的反詐意識,加上三次元有人脈關係進行證偽,他一定會繼續沉迷在這個局裏,這個局的破綻在於AI搞錯了兩個曆史人物的死亡順序,打破了他在發現新的史料上如獲珍寶的興奮感。
一直以來,文史圈都是AI汙染的重災區,因為有大量的文獻材料還沒有數字化,可用的網絡資源有限,考據成本很高,但凡較真起來,都會陷入「造謠一張嘴、辟謠跑斷腿」的困境。
就,真的很讓人焦心,用AI解決自己的問題是一碼事,將AI杜撰的信息混到公網裏又是另一碼事了,當在這些言之鑿鑿的內容成為互聯網信息庫的一部分之後,甚至又會被AI重新咀嚼回去訓練,事實數據和生成數據之間的界限將會更加模糊,這絕對不是一件好事。
有人可能會問,在沒有AI的時候,人類也會造謠,也會發到網上到處都是,怎麽沒見到你這麽痛心疾首?
其一,「拋開劑量談毒性都是耍流氓」,AI的工業化生產能力,和個體戶的伏案寫作流程,在效率上是天差地別的,實際上在我寫這篇文章以前,搜索引擎、線上文庫、各類網站上的AI填充情況就已經非常不堪了,在有了推理模型——精通於一本正經的胡說八道——之後,整個汙染趨勢會向深處蔓延,從相對次要的資料層觸及創作上遊的信源層,覆水難收;
其二,人類造謠起來是有局限性的,比如他不可能出現在一個自己沒理由出現的場合,真要這麽編造起來很容易露餡,但AI則會臉不紅心不跳的直接生造,比如栩栩如生的細節,或是身臨其境的描寫,在說謊這件事情上,AI的主觀惡意或許不及人類,但它的發揮能力,卻是獨一檔的;
其三,AI內容的生產者一般都是營銷號,而為內容背書的,則是傳播者的信譽,比如大V博主上鉤後的轉發分享,通過這種擴散機製,實現從寄生到合理化的存在目標,才是最可怕的,人會愛惜羽毛,會知道信譽下滑的後果,但營銷號不在乎,隻要避開敏感話題,有太多的流量可以消費,尤其是在掌握了「創造」獨家信息這個技術之後;
其四,AI的便利性已經把虛假信息的泛濫推到了生活的各個方向,有人拿著它推薦的菜單去點菜結果發現店裏沒這個菜,有人拿著旅遊攻略發現當地根本沒這個景點,經我實測它還會捏造不屬於「山海經」的古典異獸。
我想說的是,AIGC是技術發展的未來,DeepSeek也是國產模型的翹楚,工具沒有錯,錯的是濫用、惡用工具的行為,AI當然可以創造內容,但前提一定要是注明它由AI生成,不能魚目混珠,放任它以一種不可辨識的方式成為互聯網的原生信息,大模型廠商和內容平台也有義務把類似數字水印那種兜底方案同步推進起來,每遲一天,治理成本都會幾何級的變得更高。