思蘆隨筆

人隻不過是一根蘆葦,是自然界最脆弱的東西;但他能夠思想。
個人資料
思蘆 (熱門博主)
  • 博客訪問:
歸檔
正文

中國水軍大量湧入文學城?

(2019-05-24 20:33:15) 下一個

Alexa.com是一個權威的web 流量的監測和分析網站。這個網站由Amazon操作。它對世界上大部分網站按訪問量進行排名。在這個網站上輸入一個網址,就會得到該網站90天的流量和排名變化。還可以看到訪問者來自於哪些國家。

好奇文學城的排名,我輸入了wenxuecity.com,結果讓我大吃一驚。文學城的訪問量的前三名分別來自中國大陸(36%),美國(34.4%),加拿大(9.3%)。文學城網站在北美,大部分訪問者應該是local的。而且文學城在中國是被防火牆封鎖的,不翻牆是上不去的。來自中國大陸的訪問者竟然高於美國和加拿大。懷疑結果的準確性,我又對比了google.com (全球排名第1),youtube.com (全球排名第2)和facebook.com(全球排名第3),以及中國排名第一,世界排名第4的百度。結果如下:

網站

1

2

3

Google.com

美國(20.9%)

印度( 9.1%)

日本(5.2%)

Youtube.com

美國(15.3%)

印度(8.3%)

日本(4.8%)

Facebook.com

美國(25.6%)

英國(4.3%)

日本(4.3%)

Baidu.com

中國大陸(94.7)

日本(1.7%)

美國(1%)

Wenxuecity.com

中國大陸(36%)

美國(34.4%)

加拿大(9.3%)

除了文學城,其他網站訪問分布是按照地域分布的。說明Alexa的統計方法是準確的。穀歌、油管和臉書也都是被防火牆封鎖的,顯然來自大陸的流量明顯減少(google.com來自大陸的訪問量占3.3%,youtube.com 來自大陸的訪問量占3.7%)。

如果來自於大陸的文學城的訪問者是翻牆的,這個翻牆量有點兒大。而且翻牆是通過VPN,IP包頭已經轉換到境外網址了,根據IP地址的統計應該是看不到的。就算Alexa的統計包括了翻牆的流量,這個流量也遠遠大於同樣需要翻牆的穀歌、油管和臉書。

另外,由於中國和美國存在日夜顛倒的時差,如果主要的流量來源於大陸,文學城的峰值訪問流量應該是在夜間,但實際上是相反。除非這些大陸訪問客都在夜間值班。

難道是大陸的水軍來了?怪不得這兒的小粉紅有點兒多。

後續Followup:

得到文學城論壇管理的答複:http://bbs.wenxuecity.com/mychina/995405.html

“Alexa不準確! 我們技術部有自己的tracking數據,同時也安裝了google analytics,對比起來alexa的數據是天方夜譚,另外我們也問過廣告部同事,他們回複的是因為Alexa分析自身的缺陷,業界早就不用alexa看了。”建議用SimilarWeb.com “雖然免費公開的部分數據沒有那麽全麵,但是要看讀者分布比例是足夠了。跟我們用Google Analytics得到的數據相近 ,來自中國的流量肯定是有的,但絕對不是最大一部分流量。”

similarweb的結果是美國占60.8,加拿大占18.5%而中國占9.26%。

爭論的重點是一,Alexa是否權威,為業界采用。二,Alexa的用戶分布統計是否準確。

用Website Rank Analysis在Google搜索,最先給出的仍是alexa。similarweb要在第2頁才能看到,顯然Google 認為Alexa更權威。大多數用戶會使用google的link。 以下來自維基對Alexa的評價。

“Alexa每天在網上搜集超過1,000GB的信息,然後進行集成發布,當前其搜集的URL數量已經超過了Google。Alexa網站排名的計算是以網站的每天平均使用人數、人均訪問頁麵數(與人數和人均頁數之乘積成正比)、與其他網站的鏈接或曝光數、網民所留言討論的消息篇數等信息為基礎,並以比重不明的加權平均數來排名。而正式名次是基於最近三個月之內數據的平均值。除全世界網站排名之外,Alexa網站亦提供各種語言、地區、主題的分類排名。

Alexa網站排名主要根據Internet Explorer、Firefox和Google Chrome提供的流量數據來排名,因此,使用它的人數是否能代表一般網絡用戶具有爭議。此外,排名是根據最近三個月數據的總和來排行,因此要等很久才會有顯著的變化。Alexa也承認排名中幾項不準確信息的可能性,包括使用量較小的網站很難準確估量,主要被非IE用戶使用的網站,以及某些同域的二級域名網站等。但由於Alexa的取樣數量相當大,且參考依據為現今網絡世界的主流瀏覽器,因此一般仍被最廣泛用於評估網站的受歡迎度。”

2009年3月31日,Alexa重新設計了其網站,並提供了新的網絡流量指針,目的是為了與其他網絡分析網站競爭,如Quantcast和Compete.com。

綜上所述:Alexa還仍然是一個被公認的網站排名的權威機構。其準確性存在著爭議。主要集中在排名的準確性和及時性。Alexa也在改進其方法。但是對用戶的地域分布的準確性還沒看見到有質疑。

那麽為什麽Alexa和Similarweb在訪問者的地域分布上分歧比較大呢。這主要是由於中國的防火牆。一般中國用戶訪問文學城必須翻牆使用VPN。Similarweb可能根據IP地址來定位訪問者的國家。但是由於VPN代理服務器對IP包重新封裝,在網站上看到的翻牆訪問者的IP地址都在中國境外,所以Similarweb的中國數據隻統計了那些不翻牆的走後門通道的訪問者。根據https://stackoverflow.com/questions/6937372/how-alexa-can-find-out-my-country-if-im-using-proxy和維基的描述,ALexa不是根據IP地址來確定訪問者的國家,而是通過用戶的工具欄或其他客戶端插件收集大量數據。包括用戶的真正IP地址和其他歸屬信息。當一個用戶click文學城的網頁時,一些插件或者 Cookies(JavaScript代碼)將會隨著網頁被下載到客戶端。將從工具欄和其他客戶端插件收集到的用戶行為發送到Alexa統計網站。所以Alexa的統計更接近真實,比單純看IP地址更準確。因為Alexa的數據包括了翻牆者和不需翻牆的用戶(你知道他們是誰)的總和。那麽Similarweb的中國分布數據就是那些來自中國的直接用戶。為了驗證這個推斷,又分別查看了用Alexa和Similarweb對aa.com和oracle.com的統計。因為這兩個網站不用翻牆,Alexa和Similarweb的結果相當一致。說明以上推斷是正確的。

於是我們可推出有27%的翻牆的間接用戶和9.26%的直接用戶。這些直接用戶包括水軍和一小部分國外手機用戶。低於9.26%的水軍可能是更準確的猜測,也代表了這裏的真實感受。畢竟36%的水軍太龐大了,難以想象,也沒必要。由於這個占比是時間占比而且水軍都是在持續工作,而不是間斷性的娛樂型,水軍的實際人數應該低於9.26%。

[ 打印 ]
閱讀 ()評論 (9)
評論
Dalidali 回複 悄悄話 我相信數字的可靠性.
首葉新聞裏的評論, 大多是五毛. 那是人家的工作. 其他人隻能敬而遠之, 沒那麽多時間陪.
思蘆 回複 悄悄話 回複 'joan2006us' 的評論 : 更準確的分析見已更新的博客,後續和followup。CND的48%的中國用戶占比包括翻牆用戶。水軍人數應該低於15%(from similarweb),比較符合真實感受。推導理由見更新博客。
發現其中的事實 回複 悄悄話 回複 'joan2006us' 的評論 :
從中土費盡心機上到被長城封鎖的文學城,到底是“自發愛國” 還是“反美是工作”, 你心裏有數, 嗬嗬
joan2006us 回複 悄悄話 回複 '發現其中的事實' 的評論 :
你的意思是華夏文摘,有組織的反共。文學城自發的愛國。
光鹽行者 回複 悄悄話 有些博文,一看就是五毛寫的。看的人還挺多。不是自己點的就是其他五毛點的。我上過一次當後就再也不看了。
發現其中的事實 回複 悄悄話 回複 'joan2006us' 的評論 :
你舉的例子不恰當。CND給大量的注冊讀者常年發送給收件者,讓他們點擊。文學城的來訪者都是自己log in
joan2006us 回複 悄悄話 Checked cnd.org, it has 48% from China,26% from US, 10% from japon, and it's full of anti China articles, what does it mean?
wudaniang 回複 悄悄話 很明顯的!不要理那些人!
登錄後才可評論.