“全球前100萬網站中,中文網站的比例隻占1.3%,英文占59.3%”;
“中文網頁數量僅僅略高於印尼語和越南語”;
“中文網頁的數量十年間下降了70%”……
這類關於中文互聯網內容占比低、迅速衰退的說法,在互聯網上已經流行了很長時間。中國有超過10億的網民,卻連互聯網內容的一角都占據不了,甚至還在繼續倒退,這種反差感不能不讓人印象深刻。這是真的嗎?
有缺陷的數據
這些說法的數據都有同一個來源,監測網站W3Techs,它通過分析訪問量最高的1000萬個網站來確定互聯網內容的語言分布。現在網上很多關於互聯網語言多樣性的討論,就建立在W3Techs的數據之上。按照W3Techs的數據,英文內容始終是互聯網的主流。
然而法國學者丹尼爾·皮米恩塔(Daniel
Pimienta)和他的合作者不認同這個觀點。皮米恩塔是FUNREDES(Fundación Redes y
Desarrollo,網絡與發展基金會)的創始人之一,他和合作者一直致力於研究互聯網語言的多樣性和文化分布。聯合國教科文組織曾經委托他製作關於互聯網語言多樣性的主題報告[1]。
有趣的是,皮米恩塔當年踏入互聯網語言多樣性研究的契機,也是因為法國人對互聯網英語內容占比的高估。1995年,時任法國總統希拉克在一次峰會上表示,互聯網幾乎一個100%講英語的領域。但在皮米恩塔看來,這樣的說法根本經不起驗證[2]。
當時流行其他說法也不可靠,比如一項1999年的研究提到英文內容占互聯網達到80%。但這項研究僅僅對3000個網站做了一次抽樣,而沒有多次重複得出數據的特征,這在統計上是不過關的,但這個數據在當時被反複引用[3]。
互聯網語言多樣性的數據其實一直很不完善。1998年,研究人員首次采用基於搜索引擎的數據方法研究互聯網語言多樣性。然而,到2007年,他們發現搜索引擎報告的可靠性下降,隻能去尋找新方法。自2011
年以來,討論互聯網語言分布的政策製定者和語言學研究者,都不得不完全依賴W3Techs和InternetWorldStats,這兩個數據源都來自商業營銷領域,用它們的數據是一種無奈之舉。
W3Techs的方法存在顯著缺陷,尤其忽視了互聯網的多語言特性。例如,許多網站同時使用多種語言,但W3Techs通常隻記錄其中一種主要語言,導致了對非主要語言內容的嚴重低估。這樣的統計方法導致英語之外的互聯網語言存在被大大低估。
另外,W3Techs的計量單位是網站,沒有詳細到網頁的程度。一些非英文網站會在其主頁中出現英文摘要或少量英文單詞,這可能會導致整個網站被算作英文網站。此外,許多英文網站的其他語言版本也不會被計算在內。
中文互聯網內容到底占比多少?
為了糾正這種誤解,皮米恩塔和他的合作者開發了一種新的統計方法。他們的方法不僅依賴於網站聲明的語言,還結合了多個關鍵因素,包括互聯網用戶的語言偏好、不同地區的網絡流量、社交網絡的訂閱情況及各國互聯網服務的發展進度等。這種綜合考量使得研究結果更具代表性和準確性。
盡管W3Techs等網站數據顯示,互聯網上英文內容占比超過50%,但這項研究表明,這一比例實際上大約隻有20%。
具體來說,現在英文占到互聯網內容的20.4%,中文占到18.9%,西班牙語占7%到9%,其他語言如阿拉伯語、印地語、俄語、法語和葡萄牙語分別占3%到4%。相比W3Techs的數據,這項研究中印地語和中文內容的比重都增加了超過10倍。按這項研究的計算標準,中文內容不僅沒有減少,反而在全球範圍內持續增長。
比例上有所下降的反而是英文內容。從1998年到現在,英文內容的比例從已經從80%下降到20%。但這並不是因為英文內容消亡了,而是其他語言的內容顯著增加,削弱了英文內容的相對比例,而中文內容就處於增長之中[4]。
按照皮米恩塔與合作者長期以來的跟蹤。互聯網的發展可以劃分為幾大階段。最初,從1992年到2000年,網絡主要圍繞著英語內容構建。隨後進入了第二階段,從2000年到2010年,這一時期以歐洲語言的興起為特征,盡管英語仍然占據主導地位。從2010年到2020年,互聯網邁入了更加國際化的階段,亞洲語言和阿拉伯語等非西方語言迅速發展。
很難說皮米恩塔的統計就能代表互聯網語言分布狀況的真相。畢竟這方麵的研究並不多,研究團隊的結果缺少交叉印證,而且他們的計算標準本身也在迭代過程中。
論文中也提到,互聯網語言測量領域是兩個偏差相當普遍的領域的交叉點:語言人口學和網絡。在這兩個領域中,對數據並沒有達成很好的共識。根據資料來源的不同,在一些數字上可能會出現很大的差異,比如在某個國家有多少人講這種語言,或者網頁的總數到底是多少。
但他的研究至少說明,過去普遍被引用的W3Techs數據是有偏見的。中文的互聯網內容占比未必少到了和越南語一個程度,中文互聯網內容的迅速消亡也並非是一個定論。
衰退的,不隻是中文互聯網內容
2005年,一位商學院的學生正在為自己的學費發愁,考慮如何賺錢來填補學費。很快他有了一個主意,“百萬美元主頁”。這是一個一百萬像素的廣告頁,每個像素一美元,以100個像素為一組售賣廣告位。一年之後,他真的成了百萬富翁。
到2019年,百萬美元主頁依然在運作,但上麵40%廣告位的鏈接都指向無效網站,還有很多廣告位背後的網站已經多次變化,指向全新的域名。百萬美元網頁不僅展示了一個經典的商業案例,更展示了早期互聯網內容的衰退[5]。
對於互聯網內容來說,這樣的衰退其實每天都在發生。今年5月,皮尤研究中心的一項新研究發現,截至 2023 年 10 月,2013
年至 2023
年間一度存在的所有網頁中,有四分之一已無法訪問。2013年的網頁有38%已經消失。哪怕是2023年的網頁,到這一年的十月份都有8%已經無法訪問了。
團隊從互聯網快照數據庫Common Crawl 的檔案中隨機收集了近 100 萬個網頁樣本,對 2013 年到 2023
年每一年 Common Crawl 收集的頁麵進行抽樣(每年大約 90,000 個頁麵),並檢查這些頁麵是否仍然存在。
這項研究旨在調查有互聯網上有多少內容已經無法訪問。研究者無法訪問的網站定義為在其主機服務器上不複存在的網站,也就是我們熟悉的404錯誤還有它的變體。有些網頁相比過去出現了麵目全非的變化,其實也可以算作是消失了,但這類情況並不是此次研究的重點。
具體到各個領域。政府網站有21%至少包含一個損壞的鏈接。新聞網站頁麵上的所有鏈接中有5%無法訪問,抽樣的所有頁麵中23%至少包含一個損壞的鏈接。按網站流量排名前
20% 的新聞網站中,約有 25% 的頁麵至少有一個損壞的鏈接。近五分之一的推特帖子,在三個月左右的觀察期內也不再可見[6]。
在學術領域,也有很多數字化的論文從互聯網上消失。數字化的學術論文通常有著唯一且不變的DOI,以確保學術鏈接和引用的持久性,然而現在很多DOI背後的作品卻已經無法找到。
倫敦伯克貝克大學文學、科技和出版研究員馬丁·伊夫(Martin
Eve)對超過70萬篇帶有DOI的數字學術論文進行調查,發現接近28%的論文沒有出現在主要的數字檔案庫中,也就是說,超過200萬學術論文沒有得到保存[7]。
或許是互聯網並沒有實體,保存互聯網信息的成本很難直觀看到,我們就有了互聯網信息可以持續存在的錯覺。實際上無論從成本還是工作量上,互聯網內容的存儲從來都是一個難題。互聯網內容永遠在持續的增長中,無論是歸檔還是存儲都要花錢,問題是這些錢誰來付?
高質量信息更難找了
普通人切身感到的互聯網信息的衰退,有時候未必是信息不存在了,而是我們搜不到了。
問題出在搜索引擎上,現在搜索引擎無法像過去一樣在信息搜索上穩準狠。輸入關鍵詞得到答案,這種直觀而清晰的互動體驗正在減少。今天我們在搜索引擎輸入關鍵詞,得到的往往是內容同質、信息重複、掛著各式廣告信息的軟文。
2022年,一位工程師發布了一篇名為“穀歌搜索正在死亡”的博文(Google Search Is
Dying),表示穀歌的搜索結果一團糟,如果搜索菜譜、健康內容或者商品評論,排在最前麵的幾個非廣告結果都是格式一致、內容重複的軟文,正文還是會有大量的廣告和鏈接[8]。
這是搜索引擎商業模式所不能避免的問題。讓內容占據搜索引擎的黃金位置本身就是一項稱為搜索引擎優化(SEO)的業務。這種業務不同於競價排名,是利用搜索引擎算法漏洞,通過大量重複關鍵詞、偽原創內容或不相關鏈接來提升網頁排名。為人熟知的小編體,就是這種針對搜索引擎,刷關鍵詞騙點擊量的產物。
根據市場研究公司 IBISWorld 的數據,去年 SEO 業務價值 760
億美元。搜索引擎優化已成為大多數網絡營銷的重要組成部分,出現在顯眼位置的網站可以通過商品鏈接的返傭賺錢,其中一些甚至幹脆就是詐騙網站[9]。
為了保證內容的可靠,現在很多用戶在搜索詞後麵加上了
“reddit”,來搜索reddit論壇裏的用戶真實看法。要不是reddit始終沒有認真開發搜索功能,恐怕倒向reddit的用戶會更多。
在今年的歐洲信息檢索會議(European Conference on Information
Retrieval)上,四位來自德國的研究者發布了一項名為《穀歌在變壞嗎?》(Is Google Getting
Worse?)的研究,回應了網民對於搜索引擎的質疑。這項研究的起點就是網民對於搜索引擎質量日漸下降的抱怨,結果說明,網民的直覺是對的。
研究團隊利用一年時間,監測了Google、Bing和DuckDuckGo搜索結果的變化,發現所有搜索引擎在處理SEO內容上存在問題,遠超過整個網絡平均情況。越是靠前的內容,越是做了更多優化而且有更多返傭鏈接,鏈接越多內容的複雜性越差。其中聯盟營銷內容(為平台推廣產品,獲取點擊或返傭的內容)僅占網絡產品評論的小部分,但它卻在搜索結果中占據主導地位。不僅是穀歌,所有搜索引擎均遭受垃圾信息的困擾[10]。
搜索引擎運營商在嚐試通過排名算法更新來打擊SEO和聯盟營銷內容。從搜索結果上看,Google的更新產生了明顯但短暫的效果,從實驗開始到結束,Google的聯盟垃圾量有所減少。高質量的雜誌和社交平台通常在多次抓取中穩定出現在穀歌搜索結果的前列,而純粹的產品評論農場和一些頻繁的垃圾站點則相對短暫,常在Google排名更新後消失。
雅虎前CEO、穀歌早期員工瑪麗莎·梅耶爾(Marissa
Mayer)表示,如果說穀歌搜索變糟了,那是因為整個網絡都變糟了。在她剛為穀歌工作時,互聯網隻有3000萬個網頁,對所有網頁進行爬取和編製索引更為簡單。而現在穀歌麵對的可能是上萬億個網頁。在經濟誘因的驅動下,虛假信息、騙取點擊量的內容以及廣告鏈接不受監管地迅速增長[11]。
AI技術進步後,互聯網上這類垃圾信息越來越多。網絡安全公司 Imperva
今年的一份“不良機器人”報告表明,去年所有互聯網流量中近一半(49.6%)來自機器人,這是從2013年以來的最高水平。特別是不良機器人,占現在所有流量的三分之一。
Imperva應用安全總經理Nanhi
Singh表示:“自動機器人將很快超過來自人類的互聯網流量比例……隨著更多人工智能工具的推出,機器人將變得無所不在[12]。”
隨著互聯網內容的膨脹,穀歌隻能像打地鼠一樣追著隱藏在數十億網站中的騙子們打。前述論文作者說,這是一場持久戰,而搜索引擎輸掉了這場“與SEO垃圾內容之間的貓鼠遊戲”。
搜索引擎逐漸迷失是一個世界性的問題,對於中文互聯網用戶來說,高質量的數據更為受限,比如一些行政公開數據。
中國公開數據的透明度一度有著明顯地上升。2013後的幾年裏,國家統計局的統計指標(如人口數據、經濟統計數據等指標)數量增加了
673%。《中華人民共和國政府信息公開條例
》也在2019年進行了修訂,強調了“堅持以公開為常態、不公開為例外”的信息公開原則。
然而2015年達到頂峰後,信息公開又出現了下降的趨勢。
不同類型的信息公開程度不同。法律法規是公民和企業生計相關的事項,因此相對透明。相反,與內部工作流程相關的文件透明度較低。隨著對安全的強調,普通人看到了越來越多健康、消費、價格、就業等相關數據,但是更少看到能源、科技、創新、金融等方麵的公開信息。
尤其是科技創新方麵的信息,從2017年之後公開文件的比例就逐步下降,到2022年的公開比例更是達到2009年來的低點。
文件的保存程度也很堪憂。隻有78%的政策文件鏈接在發布兩年後仍然可用。失效的文件大部分與網站無法訪問或網站更新有關。其中一些可能在其他地方仍可獲取,但這隻是一部分[13]。
對於生活,這種變化可能並沒有帶來什麽顯著的不便利。但對於相對嚴肅的用戶,比如科技行業的投資者,這些信息的缺失仍然會帶來很多不便。相比同樣深受互聯網垃圾和廣告信息發達國家,這些高質量信息的差距,可能才是中文互聯網真正的短板。