數字江湖的琅琊榜
文章來源: 閻立華2017-06-24 14:18:42

 

“白鹿原”好看,但沉重。太太說不如“楚喬傳”,架空穿越劇,帥哥瑪麗蘇,輕鬆。我瞧不起這種YY,可也樂意躲那裏做個夢。

 

做夢可能比現實更重要,了不起的蓋茨比就靠他夢中的黛西活著,他的黛西不是那個叫黛西的女人。夢沒了,他就死了。

 

今天說一個夢的弱化版:網上江湖。互聯網上有一個數據科學家揚名立萬的地方,叫kaggle,本是一個澳大利亞的公司,後來被google收購。

 

kaggle隔三差五地搞competition,各路英雄競相登台,大打出手,為江湖地位。每個competition都有一個即時排名。排名前三的有錢拿,那是為一些瘋子般的偏執者準備的。

 

作為數據科學的菜鳥,我也報了一個,下了數據,一番折騰後,提交預測結果,1分鍾後,網上彈出排名。菜鳥的心慌如同初戀,不知江湖深淺啊。

 

開始成績不理想,隻能閉關修煉,再次出手,排名嗖地竄升,跳進top 10%,激動,不再回顧排我後麵的弱者,緊緊盯著那些領先者。

 

好景不長,轉眼就是周末,我玩回來一上網,排名下了好幾十位,網上高手多,一天不學習,趕不上劉少奇。得,再度閉關。

 

我參加的是一個next basket的項目:商店裏有購買曆史,猜猜下次顧客來會買啥。問題很簡單,人心很複雜,購物很多時候是個隨性的過程,買與不買都在一念間,一口斷定某個必買肯定是扯淡,隻能猜個可能性。

 

雖然我也算一個IT專業人士,可睜眼到江湖上一瞧,落伍了。

 

行走江湖靠兩條,一個是兵器,一個是招數。我們這代人在學IT時,兵器很粗糙,不少時間用在打磨利器上,琢磨招數的時間相對偏少。

 

現在江湖變了,信息暢通,誰是屠龍刀,誰是倚天劍,一目了然。而且,虛擬江湖上的兵器是不要錢的,完全free,無限copy。

 

目前數據科學排名第一的大殺器叫xgboost,高手武器庫必備。自古英雄出少年,這個殺器是華盛頓大學的一個華裔小孩子做出來的。自豪吧,華人。

 

稍摸著點江湖門道的人都會用xgboost,那真正的比試全靠招數,俗話叫點子。以前我們瞧不起光有點子的人,因為點子離現實的距離很遠。比如,有人吹牛要做一個亙古未見的高樓,我們瞧不起他,他沒法靠他一個人建樓。

 

現在不同了,隻有想不出,沒有做不出。在數據科學領域,尤其如此,好用的工具隨手可拾,隻要點子好,搭建是相對容易的。這也是為什麽江湖上少年英雄倍出,他們腦子快點子新,稍微認真點,就能真的出東西。

 

那老江湖是不是沒法混了?倒也不是,也有成精的。kaggle有一個總排名,數據科學的琅琊榜,排名靠前的多是男的。象劉濤能進琅琊榜前十,貝微微在PK榜上靠前,這在數字江湖裏,基本上不可能,原因嘛,我猜是她們太漂亮。

 

數據琅琊榜有6萬多人。先看排名第二的,是個俄羅斯人,住在莫斯科,有頭像,白白的,胖胖的,愣愣的。據說他是克格勃雇傭的國家級黑客。

 

他在網上泄露了一些初級武功,入門招數。打開研讀,風格詭異。極簡,在打字的數量上;極深,在每行語句的能量上。

 

總排行榜的冠軍是一個美國人,住在三藩,看上去是個正常人,因為他在正經公司就職,airbnb。這人看麵相,就是路人甲,沒特點,記不住。

 

這兩位看歲數都不算小,老江湖無疑。每個人功力都很深,可邪門的是,美俄還合作。他倆經常聯手,一起組隊打competition,所到之處,無不披靡。

 

頂尖大神怎麽贏?有人研究過,他們關鍵時刻會用組合武器,在細節上勝出。

 

這個數字江湖裏有世界上最好的數據科學家。在kaggle上闖蕩後,回頭看自己公司內部的data scenientist,才知道他們有多low。

 

虛擬江湖遠遠勝過現實。這讓我懷疑一些根深蒂固的觀念。什麽時候都別忘記去江湖上走走,世界很大,個人很小。