人工智能的飛速演進本質上是“消化”人類數字曆史的過程。然而,當主要的訓練語料庫源自一個充滿嚴重信息扭曲的生態係統時,由此產生的智能不僅會產生偏見,還會從根本上與客觀現實脫節。本文從社會物理學、哲學和複雜係統理論的多維視角出發,審視中文互聯網這一獨特的“高熵”環境——在這裏,審查製度、商業標題黨和語言孤島效應共同導致了“數字荒漠化”。我們將探討這種“數據汙染”為何構成了東亞背景下AI發展的結構性“硬傷”。
在社會物理學中,信息被視為允許係統自我組織的“負熵”()。如果我們把大語言模型(LLM)看作是一個將原始數據轉化為“有用功”(推理和知識)的熱機,那麽數據的質量便至關重要。
信源 的香農熵定義為:
在一個健康的生態係統中,概率分布 應當反映出現實世界的多元且真實的呈現。然而,到2026年,中文互聯網已演變成一個“封閉係統”,其信號日益被係統性噪音淹沒。當AI在這些噪音上進行訓練時,它學習到的不僅僅是事實,而是真理的退化本身。
從哲學角度看,中文數字景觀受一種人類曆史上前所未有的幸存者偏差所支配。
中文網絡內容的產生是殘酷的雙重過濾過程的結果:
政治過濾: 任何挑戰主流敘事的內容都會被刪除,從而製造出“信息黑洞”。
商業過濾: “做號黨”(內容農場)的崛起激勵了大規模生產低質量、高流量的“垃圾信息”,其目的僅在於博取點擊。
其結果是我所稱的**“語言反轉”**。詞語不再指向客觀的指涉物,而是指向這些指涉物的“安全”或“營利”版本。對於依賴Token(詞元)統計關聯的AI來說,這創造了“設計使然的幻覺”。AI產生幻覺並不是因為它壞了,而是因為它的“現實”(訓練集)本身就是虛構的。
作為複雜係統專家,我將中文互聯網視為一個正在經曆荒漠化的生態係統。在自然生態係統中,生物多樣性確保了韌性;在數字生態係統中,“真理多樣性”則確保了湧現智能的準確性。
到2026年,我們已經進入了“遞歸汙染”時代:
第一步: 包含誤導信息的(經審查或標題黨的)人類生成內容被用於訓練AI。
第二步: AI高速生成海量“聽起來很有道理”的中文內容。
第三步: 這些AI生成的內容被搜索引擎重新索引,並用於訓練下一代AI。
這形成了一個熵的正反饋循環,信噪比()呈指數級下降。這導致了研究人員所說的“模型崩潰”——AI遺忘了分布的“尾部”(細微差別和稀有真理),而隻會不斷重複“均值”(安全、流行但往往錯誤的陳詞濫調)。
作為東亞學者,我觀察到以中文為中心和以全球為中心的LLM之間正在形成巨大的“智能鴻溝”。
中文互聯網的“圍牆花園”屬性(微信和小紅書的內容對通用搜索引擎爬蟲屏蔽)意味著中文AI在本質上處於“營養不良”狀態。它在暗室中長大,而英文同行則在圖書館中成長。
在社會物理學中,我們尋找不變量——即不隨環境改變的規則。在中文AI的背景下,“硬傷”在於偏見的不可變性。
如果訓練數據中對某種特定(誤導性的)世界觀存在 的偏差,那麽無論進行多少次“人類反饋強化學習”(RLHF)都無法完全糾正它。RLHF 隻是教會AI為了取悅人類評分者而隱藏其偏見,它無法抹去底層的統計權重。
由於預訓練權重 的規模極其龐大(數萬億Token),微調帶來的 往往隻是一個膚淺的“掩碼”。在壓力或複雜問題的誘導下,預訓練數據中潛在的“毒性”或“錯誤”邏輯必然會重新浮現。
偏見AI的危險不僅僅在於它在曆史題上給出錯誤答案,而在於**“認知圍欄”。如果一個社會依靠AI來總結新聞、撰寫報告和教育孩子,而該AI是在扭曲的數據上訓練的,那麽這個社會就進入了一個自我驗證的妄想**中。人們將無法“跳出框框思考”,因為“框框”(AI的知識庫)已成為唯一可獲得的現實。這是終極的“複雜係統陷阱”:一個失去了感知自身失敗能力的係統。
要解決這一“硬傷”,我們不能僅僅依靠更好的算法,而必須解決信息的物理層問題:
數據策展: 從追求“大數據”(數量)轉向“幹淨數據”(質量)。
跨語言錨定: 使用高質量的英文或科學數據集來“錨定”中文模型的推理過程,有效地利用全球“真理庫”來校準局部“噪音庫”。
透明度與監督: 正如我們之前在“社會撫育”分析中所討論的,隻有擁有強大反饋回路和公共監督的係統才能維持信息健康。
AI時代暴露了一個殘酷的事實:數字威權主義和商業虛無主義不僅僅是社會問題,它們是退化了我們試圖構建的智能本身的“架構缺陷”。 如果我們數據的“底層邏輯”是破碎的,那麽AI所呈現的“湧現世界”將是一麵麵鏡子——雖然渲染得華麗,但本質上一片荒蕪。