這個題目我想寫很久了，之前我寫過一篇互聯網政治圈觀察日誌，算是描述了一下現象，我今天想猜測一下起因——以一個推薦係統工程師的身份，猜測和討論一下推薦係統引起的那些問題。

雖然討論推薦係統，但是我保證，這是一篇技術無關的文章，不需要任何數學的基礎也可以輕鬆閱讀，如果能對你有用，那我就再高興不過了。文中可能會出現一些政治觀點，由於本文不討論任何政治和立場相關的內容，所有的觀點都是為了舉例，請務必注意。

文章自認為寫的不太好，有些觀點可能沒有表達清楚，其中一個原因是沒找到合適的作圖工具，一些圖形化表達很簡單的觀點可能表達的不是那麽清晰。

我們為什麽要有推薦係統

推薦係統的誕生，是為了解決信息過載的問題，今天人類出版書報的速度已經遠遠超過了單人閱讀的極限，更不要說互聯網，一個稍微有點人氣的論壇，要讀完每天的所有新帖子也是一件非常費勁的事情，以至於大一些的論壇需要許多的版主來維護。再比如知乎，每天的新問題，新回答都不是我等能閱讀過來的速度，知乎需要雇傭很多人來做內容檢查，刪掉衝塔的，發廣告的，搞黃色的……當然機器學習的NLP技術大大減少了所需要投入的崗位數量，不過這是另一個話題了。

我們從信息匱乏的過載，隻用了區區幾十年，麵對這樣過載的信息，必須要有新的技術解決。

首先是分類，比如針對書籍，我們有中國圖書館分類法。雅虎早期的內容分類目錄也是這一思想的體現。事實上，這一分類法並不少見，很早我們在分類書籍的時候，就分為四大類：經史子集。以及分類生物的時候提出了7個層級：界、門、綱、目、科、屬、種。今天打開騰訊的首頁，仍然可以看到這些類別：新聞，視頻，圖片，軍事，體育，NBA，娛樂，財經，科技，時尚，汽車，房產，教育，文化，星座，遊戲等等。還有一些網站分為了亞洲圖片，歐美圖片，……咳咳。

但是信息仍然在過載，過載到了給每一個物品賦予對應的類別都很麻煩，甚至單單展示分類用的索引或者目錄都很困難，要知道，互聯網時代不少人的閱讀能力是不高於140個字的。這個時候就有搜索引擎了，百度，穀歌，淘寶理論上都是搜索引擎（淘寶早期也是目錄式的，現在以推薦+搜索為主了）。但是搜索引擎的基礎是，你知道有這個東西，但是不知道在哪裏。而我們往往是不知道有這個東西，大家有的時候會發出感歎：淘寶還有這個東西賣啊！就是這樣的情況。

所謂的未知有兩種：已知的未知，和未知的未知。前者你隻是不知道答案，後者，你甚至不知道問題的存在。

這個時候，參考社會化推薦，人類開始準備做推薦係統。推薦係統的一個基礎原理是，物以類聚，人以群分，並且將這個原理用數學公式體現出來。舉個例子，我愛讀《三體》，但是不知道《流浪地球》，《球形閃電》，這個時候，有一個飽讀大劉的朋友給我推薦這些書，那我應該是會欣然接受的。再比如，推薦係統認定我是個科幻迷，於是給我推薦科幻類的書籍，肯定比給我推薦《羊皮卷》這種洗腦書要靠譜的多。

如果我們給M個用戶和N個物品都從0開始編號，並且將用戶和物品的正麵的交互信息（如閱讀/點讚/購買）放入矩陣的小格子裏，我們可以得到這樣一張交互圖：

經過推薦算法處理以後（我這裏簡單的用了一個SVD代替），大致是這樣：

我們可以看到人群分為兩派，一派喜歡前4種物品，另一派比較喜歡後4種物品，我們就這樣把缺失值填上了，看上去問題解決了。但是新的問題，也就從這裏開始。

推薦係統為何讓我們偏激

相信大家都不是糞車從門口過也要嚐嚐鹹淡的人，所以我們大概率會集中在自己喜歡和支持的東西上——這個看上去也沒什麽大問題。比如飯圈之前就喜歡搞“封地自萌”，我們小圈子覺得哥哥最帥那就是最帥其實沒有任何問題，哪怕出了圈子也沒人認識你那哥哥姓甚名誰，你哥哥也可以天下第一。

但是這一切的前提是“人貴自知之明”，你需要知道你看到的結果是由你的曆史行為形成的向量召回並且經過精排算法排序形成的，是你自己決定了自己看什麽，你所在的就是一個小圈子，萬萬不要把它當成整個世界。

還是以飯圈為例，你的微博滿屏都是你的好哥哥，但並不代表所有的人都在看你的哥哥，對你來說你的好哥哥是97%甚至100%，但是對於整個微博的流量可能隻有10%，影射到生活可能之戰1%都不到，畢竟大家還要回家做飯收衣服，很忙的！

不幸的是，人類就不是有自知之明的生物，之前的飯圈“破圈”，以及2.27事件就是相當的典型——一個我不認識的私域流量明星的粉絲通過舉報等手段，讓另一個我不熟悉的圈子（同人圈）的交流和發表作品用的網站消失。從資本的角度看，所謂破圈是資本是不滿足於收割私域流量，準備擴大收割麵積，2.27事件是破圈的陣痛，是韭菜對資本無力的抵抗。但是從普通用戶的角度看，是一群異常極端的人在四處攻擊他們所有看不順眼的行為。在我看來，這些異常激動的行為的罪惡根源在於兩方：推薦係統及其它原因產生的信息偏置，以及容易被偏置過的信息洗腦的人類。

支持觀點A的人看到自己的首頁上95%的觀點都支持觀點A，很高興，支持觀點B的人看到頁麵上99.85%都支持觀點B，更加高興。在他們看來，隻不過還有5%或者0.15%的人似乎反對自己的觀點。

天呐，大家都一邊倒的支持自己的觀點，怎麽還有這麽幾個人冥頑不靈？

這個時候人類的另一個缺點——或者從生存的角度說是優點——就起作用了：仗勢欺人，大家都覺得自己人多，自己的觀點邏輯上也說得通——雖然他們的邏輯可能是基於錯誤事實推導出來的，但是沒關係，我們現在人多，我們一人一口唾沫都能罵到你銷號。

所以除了在自己的小圈子裏互相轉發以外，就是試圖去“感化”支持自己能看到的、為數不多的、持對立觀點的人。

我認為這種現象可以稱作觀測偏差，讓人產生觀測偏差，這也是洗腦的基本原理。一些政府也好、組織也罷，有目的，有組織的對互聯網的內容進行注入或者刪除，來達到讓民眾產生觀測偏差，進而借此洗腦的目的。比如我在前一篇文章裏提到日本的“藍莓星冰樂”推特，就是通過注入數據的方式，讓大家覺得新冠並不是一個很嚴重問題，結果被日本網友掀了個底兒掉。還有一些奇妙的機構，不僅通過注入，還通過刪除的方式，讓大家產生“歲月靜好”，“萬眾一心”的錯覺，就這樣還經常翻車，真是“有心栽花花不開”。這麽來看，推薦係統造成的偏置隻能算是“無心插柳柳成蔭”。

稍微聰明一點的人會用小號或者匿名的模式去單純的觀測，可能可以得到類似：“AB兩派勢均力敵，但是從數據看，A暫時略勝一籌”這樣較為中立的結論。

但是如果真正的從後台數據看，有可能支持觀點A和觀點B的人加起來不超過30%，大多數人其實支持的是更加溫和的觀點C，隻不過他們甚至都不關心這個問題本身，所以被係統忽略了。於是我們看到，AB兩派吵得天翻地圖，互相罵對方臭不可聞，是狗屎，是蛆，C則在風花雪月，聊天打牌，時不時莫名其妙被卷入AB之爭當成對立麵裏麵濺一身口水。

推特上的鍵政圈裏這個問題尤其明顯，有些觀測偏差甚至不是推特在搞鬼，而是用戶自己製造的：

比如上麵這個小工具的主要作用就是：拉黑給某一條推特點讚的用戶。一般來說，有人發現了一條自己極其厭惡的推特，這個時候就可以拉黑所有給這個推特點讚的人。本身推薦係統就有“協同過濾”之稱的算法幫你過濾你不喜歡看的東西了，這個小工具可以說加劇了對立。

對立的產生本身就在於人類不願意動腦子，不去思索為什麽這些人會發讓你厭惡的內容，而是單純的覺得對方惡臭，討厭，自己不願意再見到。我看到一條新聞，不需要確認其真偽，細節，隻需要用我腦袋裏的政治觀點就可以作出評論，參見這個推特下麵的評論：貴州女子高空玩兒秋千。

廖雪峰老師也曾經吐槽過：

____國交警控製綠燈為過馬路老人多亮了97秒，你怎麽看？

我可以偏激的說一句，使用這個屏蔽點讚用戶小工具的人，相當偏激，且相當容易被洗腦。因為他的腦袋裏隻允許裝下一個觀點，他的世界隻能有一個聲音，所有的反對意見都是這個世界的渣滓和汙垢，他會認為這樣的屏蔽行為隻是一種“清潔”，就好像裝紗窗防蚊蟲一樣自然。

如何對抗推薦係統

首先，你隻要記住：“我看到的信息，大部分都是有偏向性的，不可輕信”，就足以對抗世界上大部分的洗腦，傳銷，帶節奏。你甚至不用去特地對抗，因為你知道信息是有偏的，你就不會偏激。

當然，單單記住這一句話是有點問題的，畢竟我們還要靠互聯網收集資料，如果不相信自己看到的信息，意味著無法獲取任何有用的信息。這個時候我繼續給出一個不是特別完美的解決方案：“孤證不立”。

當我們看到一個觀點或者一個信息的時候，在接受它之前，首先最好能找到完整的證據鏈去證明它。比如你對我推薦係統“物以類聚，人以群分”的觀點有疑惑，可以自己造一點數據去跑一跑諸如SVD++這樣的算法，就知道我最後兩張圖表所言不虛。

對於一些證據不好找的內容，可以這樣判斷：如果你看到一些評論一邊倒的內容，隻有支持，沒有任何反對，那這個內容肯定有問題。

要讓一個內容成立，至少找到兩個不同的支撐這個內容的證據，如果可以的話，最好找到反對的觀點。如果實在無法確認，可以試試自己製造一些反對的觀點，看看這些觀點會引起怎樣的討論，或者怎樣的消失，你對這個內容的可靠性心裏就有數了。這樣你才可以在相信與不相信之間慢慢抉擇，有叫大概率作出正確判斷。

所以，你最好關注一些你不喜歡的人，聽一聽你不喜歡的聲音。盡管這麽做可能對你造成不適，但是適度的不適可以讓你成為一個更加開闊、理性、客觀的人。成為所謂客觀人不會帶給你任何直接收益，但是減少偏激至少有助於防止形成極端主義，例如法西斯那樣的獨裁和專製。

看到喜歡的或者不喜歡的內容，切勿被一時的情緒所裹挾而衝昏了頭腦，仔細想想，這個內容的作者本身可能抱有什麽樣的目的，作者隱藏了什麽沒有告訴你的內容。

以本文為例，我前麵沒有告訴你的是，新穎性也是推薦係統的指標之一，雖然難以評估，但是很重要。推特並沒有太多的過濾你的內容，最多是根據你的關注點讚信息給你推對應的廣告，推特也有Trend這樣的模塊讓你發現更大世界。基於以上觀點，將錯誤全部推給推薦係統並不對，如果你抱著前文的觀點跑到互聯網公司去要求他們撤掉推薦係統那就不對了，這篇文章也不是為了引起你對推薦係統的仇恨，我還是肯定推薦係統在解決信息爆炸上的價值的。

事實上，推薦係統會造成上述的問題，但是往往小於一些別有用心的人和組織進行的信息注入和刪除——這是非常常見引導輿論的手段，這些特性的刪除和注入的破壞力也遠大於推薦係統造成的因為用戶自我選擇而帶來的傾向性。

希望大家都能有更開闊的視野。

切換到網頁版

互聯網觀察：推薦係統如何讓我們變得極端

清雨影的Blog 2024-08-31 19:59:09