正文

從文城第一名聊聊研究方法

(2023-09-26 17:08:21) 下一個

All models are wrong; some useful.

“平等性”博友搬出George Box來自救,要我看,您就是搬出Albert Einstein也沒轍。

Ronald Fisher在他的獲獎感言裏說,你們都誤會我了,我是科學家,你們給我一個最佳統計學家的獎,是羞辱我呢,還是羞辱我?

雖然我對《正常,還是不正常》一文的結論深信不疑,但這篇文章的論證方法並不科學,其中的道理,是不需要學習任何正規的概率論或統計學就可以明了的。你在沙灘上隨手抓一把沙子,沒有抓到臭蟲,就斷言沙灘裏沒有臭蟲,這種當今寫SCI的做法,豈能當真?

因為文城第一名的爭議,我對文學城小編的眼力見早就徹底失望,不作任何指望了。但我對號稱海外簡中第一文學之城,博友中諸多號稱教授、博導者的科學鑒賞力也非常失望。這從我前一篇文章《如何估計BJG博文的真正流量》不及一千的點擊量,就可以看出。

科學研究方法大體上分為兩類,一類是機理分析,一類是經驗模型。前者強調演繹推理,後者著重歸納邏輯。前者發端於歐幾裏德幾何,後者登峰於貝葉斯理論。前者主要應用於科學發現,管理決策卻主要依賴於後者。當然,這並不意味著兩類方法隻能二者取其一,實際 上,現代科學研究常常是二者融合,從經驗中找到蛛絲馬跡,形成假設,通過邏輯推理,建立觀察量,用以檢驗假設。這就是Fisher堅持認為自己是科學家而不是統計學家的原因。

《估計》文是建立在嚴格的科學方法基礎上的。文章的零假設(Null Hypothesis,NH)是:BJG文章不存在虛假點擊。

推理:在NH成立的前提下,BJG的文章點擊量分布(distribution),應該與廣大博友的文章點擊量分布相當。在一般話題上處於某個水平,在爭議話題時,點擊量會自然上升。

觀察量:BJG的文章點擊量分布,以及其他諸博友的文章點擊量分布。

結果與討論:縱觀BJG所有顯現文章,其篇點擊量分布正好與廣大博友的文章點擊量分布反相,即在一般話題上點擊量處於高位(上萬),而在爭議話題上文章點擊量處於低位(少一個數量級)。而廣大博友的文章點擊量分布通常在一般話題上點擊量處於低位(十、百、近千),而在爭議話題上文章點擊可見明顯增長(大幾千)。這種反相模式,目前隻有一種理論可以解釋,那就是:BJG的一般話題文章都是帶有任務的,寫完了,就要用點擊量交差。而BJG的爭議話題是在任務之外的文章,無法將之注冊到機器點擊的範圍之內,因而此類文章的點擊,“泯然眾人矣”。對帶任務感興趣的讀者,請參考《再說一點大外宣的事情》第三段。

這種分析方法的優點在於,一方麵考慮了BJG的全體文章樣本,而另一方麵對於廣大博友文章的點擊量分布,作者采用了多年來累積的經驗,伴之以貝葉斯更新,結果極其robust. 這個方法采用了統計力學的各態曆經(ergodicity)概念,特色在“縱觀”二字,因之避免了傳統抽樣方法以偏概全的缺陷。

結論:NH不成立,p = 0.

Disclaimer: 此文的主要目的是解釋一種現象,而並不是針對BJG個人(如果是一個人的話。重音在“一個”,不在“人”)。此文未接受任何形式的資助。

致謝:感謝夫人方便麵晚餐侍候。

建議平等性教授將此文推薦到Science發表,並授予Ig Nobel prize。一笑。

---------

PS: 紅色字體為修改稿,請“數字旋律”博友斧正!

Article history: 

2023-09-26: submission

2023-09-27: revision

 

[ 打印 ]
閱讀 ()評論 (32)
評論
數字旋律 回複 悄悄話 把隔壁的留言搬過來:

之前友梨江莉網友說的第二點,我表示同情和理解相關的討論。這裏僅就第一點直接相關的點擊算法而言(當然對於第二點應該也是間接相關的),根據我遠距離的分析和猜想,因為《文學城》要兼顧優化平衡各種考量,“處理”起來會比較棘手,從平台的角度來看,可能也不值得,因為如果要真正有效地來“處理”,資源消耗大。此起彼伏,沒完沒了,畢竟連Twitter這種資源的平台都沒啥好辦法。而且,也會影響平台營運的其他方麵。所以,《文學城》不作“處理”是有其技術和經濟原因的。之前我沒少對文學小編冷嘲熱諷,所以這裏幫《文學城》說一句:你們這些當城民的,不當家不知柴米貴:)

有博主說,“難的不是點擊器,他們也知道咋回事,但你弄個試試,分分鍾把你掐死,不要問我咋知道的”,言下之意是文學小編特別開後門給特定博主的點擊器,這當然是可能的,不過更可能的是,“你弄”的那個點擊器鬥不過《文學城》的算法,而(純理論討論)“別家”的點擊機製有可能是真的水軍、或更高級的點擊算法,對付Twitter的那種。看文學小編無為而治那個懶勁,不太像是會搞開特別後門給特定ID那種低技術小動作的。文學小編和眾博主勿怪,我隨便猜的:)


數字旋律 回複 悄悄話 回複 'x瀟瀟' 的評論 : 你說的有道理。

俗話說,水太清則無魚,在《文學城》這種非實名聊天平台,要想防點擊率異常,僅靠算法是很難的,因為要兼顧流量、留住作者和評論者。連Twitter對各種異常也很頭疼。再者說,你要《文學城》小編拉下臉來對特定博主進行人工幹預,這也太為難文學小編了:)

從另一方麵說,點擊率特別異常的博主或博文確實好識別,善意地去猜想,沒準人家是故意賣個破綻讓你識別的呢!而那些不特別過分的呢,其實對所有人來說都更麻煩:)

前麵說了,靠算法是很難優化平衡各種考量的。即使更科學更先進的AI算法出現,甚至即使《科學城》出現,點擊率異常也是防不勝防的。同時也應該問一問,為什麽這麽多年了,一直沒有《科學城》出現?海外中文平台生存十分不易,1比0好,與其期待N年後也未必有的《科學城》,大家還是多珍惜現有的《文學城》吧:)


x瀟瀟 2023-09-29 02:46:51 回複 悄悄話 回複 '數字旋律' 的評論 : 科學城也不可能好到哪裏去,瘋狂的點擊率就是科學弄假的。
x瀟瀟 回複 悄悄話 回複 '數字旋律' 的評論 : 科學城也不可能好到哪裏去,瘋狂的點擊率就是科學弄假的。
x瀟瀟 回複 悄悄話 回複 '五湖以北' 的評論 : 深有同感,都懶得寫博文了。像烏克蘭被侵占一樣,這塊土地快完了,我們沒有烏克蘭人民偉大
數字旋律 回複 悄悄話 拋開《Science》不談,我感覺批評《文學城》的排名算法,實是有點無厘頭,畢竟,《文學城》不是《科學城》啊!我猜想,可能大家在《文學城》混得久了,都變得像大陸出身的文科生一樣,有點無厘頭:)

告訴大家一個好消息,隨著AI的突飛猛進,局麵很快會有大的改觀,由AI科學管理的《科學城》很快就會出現,徹底擺脫“文學小編”,曙光就在前頭,眾博主有盼頭啦:)
BeijingGirl1 回複 悄悄話 我就是進來說一下。 1. 我的博文從來沒有刪, 每篇都在。 最早的追溯到2015年。 2. 在博主這裏發毒誓, 是第一次, 沒有更早的了。 我仍然堅持這個誓言。 人在做, 天在看。
BeijingGirl1 回複 悄悄話 回複 'LianChen' 的評論 : 說您自己吧。 :) 謝謝離開。 請不要老盯著我, 寫好自己的博。
LianChen 回複 悄悄話 Reply 無塵2023: 批評政府會影響民族認同感,這是你的opinion, 不是fact哦。現政府也批評過去政府的嚴重錯誤,如反右大躍進文革,按你的邏輯,現政府也是做負麵影響民族認同感的事,不應該檢討文革錯誤?
LianChen 回複 悄悄話 Reply BJG: 建議你運用你為之自豪的雙向分析,分析一下下麵的狀況:1)曾經讚揚你在你博文留言的網友離開你,2)曾經讚揚你的網友現在回來批評你。希望你的critical thinking和雙向分析不是選擇性的。不要一句話“他們被洗腦偏激”,有點facts有點深度:)
LianChen 回複 悄悄話 Reply BJG: 建議你運用你為之自豪的雙向分析,分析一下下麵的狀況:1)曾經讚揚你在你博文留言的網友離開你,2)曾經讚揚你的網友現在回來批評你。希望你的critical thinking和雙向分析不是選擇性的。不要一句話“他們被洗腦偏激”,有點facts有點深度:)
數字旋律 回複 悄悄話 抱歉抱歉,編輯部忽然失聯了,審稿費都還沒給呢,已報警!

回複 '牧爺' 的評論 : 牧爺 2023-09-27 17:15:07 回複 悄悄話 回複 '數字旋律' 的評論 : Revision was submitted!
牧爺 回複 悄悄話 BJG下麵的兩個留言都有錯誤(我就不指責TA造假了)。“發毒誓就是在這個博主的貼裏, 是在快兩年前。” 也許在我的場子裏發過誓,但絕不是第一次,也不是最後一次。兩年前更是無稽之談。老夫所有文章皆在,不像某人,寫了刪,刪了寫。

“博主快兩年前還列出了一堆馬甲, 說是後麵有數字的。 結果有個XX98出來喊冤。”是有這麽一回事,所有名單就在《且讀且評且修正》一文中,“喊冤”的留言也在文中。看TA怎麽笑得出來。

說一個題外話,BJG真是PUA高手,把個七月牡丹騙得個團團轉。這個事情開始變得很不好玩了。
牧爺 回複 悄悄話 回複 '數字旋律' 的評論 : Revision was submitted!
牧爺 回複 悄悄話 回複 '友梨江莉' 的評論 :
謝謝您的評論,完全同意。隻是因為我對第二點理解不深,不敢冒然參與。所以我隻談第一點。當然不參與並不表示我沒有意見。
------------------------
總有人非要歪曲人們批評BJG的的本相,我就說說我在城裏一些博主文章下麵留言批評BJG的兩個原因。
第一,反對造假;第二,碼字留言要守“人”最起碼的底線。
wendyfei 回複 悄悄話 老爺子,你能不能寫點別的東西,你蹭京妞的熱度有好幾篇了、也出名了混上第一了,該寫點有意義的東西了,整天跟女人堆裏抄架有意思嗎。
無塵2023 回複 悄悄話 回複 'LianChen' 的評論 :
我們這些海外華人,離開了中國,就是對中國政府最大的批評。
我們身居海外,需要建立自己的民族認同感。您老揪著中國政府批評,有啥用呢?您是想中國變得更好,還是變得更壞呢?
五湖以北 回複 悄悄話 回複 '魅力野花' 的評論 : 文學城早已經一蹶不振了,就是因為不該上的老霸著城頭,爭論說明有人還有點血性,而我自已早看穿了
五湖以北 回複 悄悄話 回複 '魅力野花' 的評論 : 文學城早已經一蹶不振了,就是因為不該上的老霸著城頭,爭論說明有人還有點血性,而我自已早看穿了
魅力野花 回複 悄悄話 我們網友在文學城聚會還是需要緣分的。
希望大家珍惜緣分,討個熱鬧,千萬不要計較太多。

10多年前,貝殼村吵吵鬧鬧幾次,然後一蹶不振到今天。教訓極其深刻。
友梨江莉 回複 悄悄話 “我不會罵人, 就隻有發毒誓。”
--------------------
我的天哪,您要說不會罵人,這城裏可有一個敢說自己會罵人的麽?
謙虛確實是個美德,可謙虛到撒彌天大謊,就有些過了。
別忘記互聯網是有記憶的,就算你本領大到讓這城是為你而開,想怎樣就怎樣。
也還有天網恢恢、疏而不漏,說不定就在哪裏留下您吐過的無數“蓮花”呢。人在作,天在看。
友梨江莉 回複 悄悄話 總有人非要歪曲人們批評BJG的的本相,我就說說我在城裏一些博主文章下麵留言批評BJG的兩個原因。
第一,反對造假;第二,碼字留言要守“人”最起碼的底線。

關於第二,剛才的留言已經說了,這裏隻說關於造假。

我一直覺得一個博主的所有文章永居榜首這事不可思議,特別是有許多明顯更高水平的文章甚至連首頁上都看不到。
如此不可能的事情卻天天發生並持續經年,我覺得可以斷定這是在造假,雖然我不知道是誰在造假。
我厭惡造假,想在幹淨的環境裏閱讀。而且,造假會使好文章越來越少。

什麽文革、紅衛兵、拉幫結派、羨慕嫉妒恨、霸淩、群毆、恃強淩弱、以多打少、牆倒眾人推、在乎點擊率、逼人表態、逼人站隊等等的攻擊指責,完全是在歪曲事情的本相。
是明顯的在偷換命題、偷換概念、指鹿為馬、揣著明白裝糊塗。很多連起碼的常識和邏輯都沒有。
友梨江莉 回複 悄悄話 回複 'LianChen' 的評論 : “BJG博文點擊量是有爭議,但我更看重她缺乏理性思維。尤其是最近show下限了,包括發毒誓和揭網友傷疤(妹妹死了)。這不是一個受過高等教育在美國工作生活幾十年的知性女士應有的樣子。”

-------------------
我覺得您說的是事實,我可以作證。
有一位“北美原鄉人”博主寫了篇文章,x瀟瀟網友在那裏留了言。
https://blog.wenxuecity.com/myblog/75697/202307/19748.html

BJG大概是對x瀟瀟網友的留言不爽,開始攻擊她,最後升級到拿她逝去的親人幸災樂禍、咒罵,而且威脅、恫嚇她。
我本隻是看,沒有留言,但看到BJG這樣做實在忍不住了,覺得這越過了作人的底線,進去留言斥責了TA。
於是,TA又衝我而來,開口就是汙言穢語。
繼而拿我的網名說事,然後又拿性別開罵,因我的網名有個“莉”字。

不知文章作者“北美原鄉人”出於什麽想法,出來刪帖,特別是刪掉了BJG罵x瀟瀟最惡毒最傷人的部分,也刪掉了罵我的那些汙言穢語。另外,我記得好像還刪掉了我批評BJG的第一帖。
我不開博,不知道WXC的博客有沒有可以恢複刪帖的功能。
如果有,那隻要請北美原鄉人博主把那篇文章下的所有留言按照時間序列如實公開,便可以知道我說的是否屬實。我什麽誓也不想發,有不信者,請去北美原鄉人博主那裏看所有留言,最好是能麻煩北美原鄉人博主把那篇文章下的所有留言都公開。

我特意用了TA而不是“她”。
第一是因網絡為虛擬世界,無法根據網名來斷定性別;
第二是因TA攻擊他人的語言實在太髒太野,滿口的汙言穢語,使得我覺得男人這樣的都少見,若說是女性,怎麽可能;
第三人們通常隻能根據文章內容來判斷作者性別,未必就準確。而且也沒有必須知道作者性別的必要(不花前月下談情說愛的話)。
BeijingGirl1 回複 悄悄話 name calling, 和毛澤東的文革小組點名一樣。 博主快兩年前還列出了一堆馬甲, 說是後麵有數字的。 結果有個XX98出來喊冤, 笑起我了。 可見人是不會改變的。 其它的留言, 請到7月的貼
https://blog.wenxuecity.com/myblog/74209/202309/24483.html

我看很多紅衛兵又要趕來了。 撤了。 謝謝博主對我曠日持久的關注。 :)
BeijingGirl1 回複 悄悄話 回複 'LianChen' 的評論 : 您錯了。 發毒誓就是在這個博主的貼裏, 是在快兩年前。 發了毒誓, 有人立馬不再攻擊“大外宣”了。 我不會罵人, 就隻有發毒誓。 誰在造謠,沒錯, 會收到報應, 天在看著你。 最先罵網友家人的不是我,而是您特喜歡的那位, 她在文中罵了我全家。 偏激的腦袋啊, 就別到處現眼了。
牧爺 回複 悄悄話 回複 '無塵2023' 的評論 : 謝謝訪問。想要了解我的想法,請讀我過去的相關文章,都在這裏,不多。
牧爺 回複 悄悄話 回複 '平等性' 的評論 : 謝謝鼓勵,我其實沒有寫清楚,寫時總有人打擾。好在已有中肯的審稿意見。
牧爺 回複 悄悄話 回複 '數字旋律' 的評論 : 謝謝您的審稿意見。有空時再做回複,修改後再提交審查。問題(3)是真問題,目前的寫法,後果就是讀者隻好認為是“跳躍性猜測”。我在觀察量與結論之間會加一段文字解釋這段跳躍。
牧爺 回複 悄悄話 備份。所謂“樓下幾位”者,BJG、康賽歐、北佛風光、古樹羽音、無塵等。
--------------------------------
七月牡丹博友:昨晚讀到您的捉賊一文,心有戚戚焉。早晨看到您已將此文刪除,我想您是善良之人,特留一言。我們之前的交流,我知道您是文科類,對文字敏感,但非常遺憾你會和樓下其他幾位一樣,繼續認為我和文學城其他一眾網友是“結黨營私”,打擊異己。大家在網上,都是為了滿足自己學習、交流的目的。我在“平等性”博友一文中的留言:“文學的目的是涵養,是求真,是慕美。成日在美中涵泳的人,看見假的醜的,怎麽能置之不理,作壁上觀?” 這是我的真實想法,我想也是其他一眾網友的想法。

套用前不久流行的一句話,“問題在點擊,根子在政治”。 大家厭惡的根源不是什麽誰誰誰長年第一。已故的閻潤濤博友,當年他的文章幾乎篇篇上城頭,沒有一人對此有意見。為何?他的文章真的耐讀,有營養。BJG的文章上頭牌為何遭人恨?質量太差!我敢自信地講,差到連我寫的都不如。這還不是關鍵。關鍵是為何質量不好,為何還能長期占據第一名?是長期,不是一次兩次。是幾乎天天!敏銳的人一眼就看到BJG文的高點擊量。為何她的一般性文章在24小時之類可以迅速可萬?而爭議性文章最終也隻是小幾千?這不是很可疑嗎?您在這篇文章中談到各種原因,但所有這些原因中,大多在談錢。唯一的一項談政治的,您卻一筆帶過。您可能沒有讀到我寫的《再談一點大外宣的事情》,讀讀其中第三段吧。這可是我身邊的事情。

文學城設置有“悄悄話”,我幾乎不用。因為那是一個最生是非的工具。除了請求加為日常見麵的朋友,有什麽事情非要在人背後說什麽呢?

最後,我個人並不反對大家宣傳中國的好。我曾經說過,如果大家都講道理,講邏輯,能夠說服大家走集體主義、威權主義的道路,我樂於學習。但要是耍陰謀,玩虛假點擊,再發誓也沒用。當然最後這幾句話,是對樓下另外幾位講的。
LianChen 回複 悄悄話 回複 '無塵2023' 的評論 : 一個來自中國的人批評現政府是很正常啊,國家興亡,匹夫有責。為什麽會沒有麵子?華人經常把國家政府政黨的概念搞混了。
BJG博文點擊量是有爭議,但我更看重她缺乏理性思維。尤其是最近show下限了,包括發毒誓和揭網友傷疤(妹妹死了)。這不是一個受過高等教育在美國工作生活幾十年的知性女士應有的樣子。
無塵2023 回複 悄悄話 我就很喜歡丹黎的博客。
可能有人認為我是丹黎一個圈子的。實際上不是我主動加入丹黎的圈子,是被很多人推進這個圈子的。我在很多人微博下的評論,不是被拉黑,就是被刪除。所以,也隻能認準丹黎的博客來評論了。
有人將我當成大外宣,我真不是,隻是說出我個人的看法而已。我沒有說中國多麽好,但不是像很多人講的那麽差。一個來自中國的人,說中國壞話,我覺得自己沒麵子。如此而已。
我不是那種痛罵中國反而覺得自己很自豪的人。我痛罵中國的時候,心裏很不舒服。
作為一個加拿大人,如果我批評一下加拿大政府,我覺得是很正常的,雖然實際上我從來沒有批評過加拿大政府。
但作為一個加拿大人,說中國幾句好話,也應該很正常吧?難道非得罵中國才可以?
數字旋律 回複 悄悄話 《Science》聽到推薦:) ,委托我來審稿,隨便挑幾處缺陷:)
(1)博主大文為統計類文章,不是特別適合《Science》,建議送統計學專業期刊發表、並競爭統計學獎項:)
(2)博主說,“應該與廣大博友的文章點擊量分布相當”,請博主說明是如何得到“廣大博友文章點擊量分布”的?似乎也正是博主所批評的,平等性大文《正常,還是不正常》中,“隨手抓一把沙子”的方法:)
(3)按照博主研究,結論隻能說排名第一的博友的點擊率是個Outlier,但是達到“是虛假點擊”這個結論,嚴格意義上說(《科學》層級雜誌的標準:)),是跳躍性的猜測,拿來做零假設不夠嚴謹。Outlier有可能是虛假點擊,但不能絕對說是虛假點擊。
(4) 博主說的關於博主前文,“《如何估計BJG博文的真正流量》不及一千的點擊量”,不準確,:剛才我因為陸陸續續研讀,前前後後點了幾下,點擊量從之前的9百9十多上升到已經超過一千了:)
(5)綜合(3) 和(4),充分證明,理論上,上萬點擊量可以是真實的點擊量,這個可能性是存在的,不見得就一定是虛假的點擊量:)
平等性 回複 悄悄話 牧爺好文章,一針見血,犀利暢快!俺寫文章很有些拖泥帶水,要多多向牧爺學習 :)
[1]
[2]
[尾頁]
登錄後才可評論.