孫愷钜——改命造運,廣結善緣

一個人的命,從出生那天起,從東向西而去;
個人資料
  • 博客訪問:
歸檔
正文

《大數據時代的裸奔》的裸奔

(2015-02-03 15:52:06) 下一個
孫愷钜 201524

 
曾幾何時,有個叫崔永元的人,為了搞清轉基因的問題,專門去了一趟美國。就轉基因問題,他采訪了美國有關方麵的專家以及正在商店購物的一些普通顧客。
 
作為這次采訪的成果——一部記錄了崔永元美國之行的紀錄片發行了。
 
就如在滾油中澆了一勺冷水,一時間,輿論大嘩,支持者有之,質疑者有之,更有些人貌似公正,以科研論文的標準對崔永元的紀錄片發難。其中有一個很值得一寫的觀點,就是對崔永元的采訪對象南希 斯萬森教授的質疑,南希 斯萬森教授出示了“草柑膦使用量和疾病高相關性”的關係圖,對此,有人非常“科學”地提出,相關性不代表因果性,高相關係數也不能說明因果關係更強*
 
無獨有偶,黑龍江大豆協會副會長王小語也作了類似的工作,在他繪製的地圖中癌症高發區和轉基因大豆油消費區高度重合*,他說,“我依據自身在糧食行業20年的工作經曆,卻發現致癌原因可能與轉基因大豆油消費有極大相關性。”而對王小語的批判,仍然是那句話,相關性不代表因果性,高相關係數也不能說明因果關係更強。
 
那麽,相關性和因果性真的沒有關係嗎?轉基因的鐵杆支持者,網名奧卡姆剃刀,在今年114日發表了一篇題為《大數據時代的裸奔》的文章,愷钜不僅讀了這篇文章,而且反複閱讀,差一點就“韋編三絕”了。好文章啊!以致愷钜忍不住套用了奧卡姆剃刀的《大數據時代的裸奔》的結構而寫成本文,也沾一沾奧卡姆剃刀的“科學”氣,因此,本文中的許多句子段落甚至小標題都直接搬用了奧卡姆剃刀的原話,在此先向奧卡姆剃刀致謝並致敬!
 
1、相關關係比因果關係更重要
老王開了個診所,收治了不少癌症病人,老王就在想,這些人為什麽會生癌呢?老王琢磨著生癌的也都是一樣的人,應該是有規律的,例如,有的是因為遺傳,有的是因為環境汙染,等等。於是老王每收治一個病人就記錄一次病人的詳細資料,誰在發病前居住環境怎樣,食物結構如何,有沒有家族史,並試圖從中找出每個病人得癌症的原因。
數據雖然越記越多,但老王啥也沒找出來。有個人給老王支招,你甭盯著一個個的病人去找原因,你隻要把記下每個病人的情況進行分類就行。這個法子明顯簡單有效,很容易就看出了癌症病人的一些共性的規律,比如,他們都喜歡食用豆油。
這個例子雖然簡單,卻道出了大數據的一個重要特點【相關關係比因果關係更重要】,豆油與癌症就是相關關係,但為什麽得癌症呢?是因為人本身的遺傳原因呢?還是環境汙染原因呢?對這些可能性不必探究,因為即使探究可能也搞不清楚,因為很難從單一因素上找到確切的致癌的因果關係,然而隻要知道吃豆油生癌的人多,就能正確地指導老王對喜歡吃豆油的人做相應的重點檢查,對癌症病人做到早發現早治療,這就行了。
要相關不要因果,這是大數據思維的重要變革,以前數據處理的目標更多是追求對因果性的尋找,或是對猜測的因果性的驗證,人們總是習慣性地找出個原因,然後心裏才能踏實,而這個原因是否是真實的,卻往往是無法核實的,而虛假原因對麵向未來的決策來說是有害無益的。承認很多事情是有多方麵的原因綜合作用的結果,這是人類思維方式的一個重大進步(這句話是愷钜修改過的,我覺得奧克姆剃刀說的不嚴謹,他的原話是:承認很多事情是沒有原因的,這是不對的,目前找不到原因不等於將來找不到原因,多因素的原因不等於沒有原因,故愷钜覺得有必要作此修改,作為回報,愷钜允許奧卡姆剃刀在以後的文章中使用愷钜的說法來完善他的科學論文)。
奧卡姆剃刀的這一觀點,很好地回答了,轉基因和疾病的高相關性到底重要還是不重要的問題。南希 斯萬森教授提出的轉基因和疾病的高相關性關係,按照奧卡姆剃刀的說法,我們不僅不可以忽視,她實際上已經指出了化學農業衰落的必然性以及對於科學作為類似“雙刃劍”的負麵效應應有足夠的重視。可以說,挺轉基因的奧卡姆剃刀狠狠地給了挺轉基因的果殼網以及饒毅之流一記響亮的耳光。
 
2、要全體不要抽樣
傳統的調查方式都是抽樣的,抽取有限的樣本進行統計,從而得出整體的趨勢來。
抽樣的核心原則就是隨機性,不隨機就不能反映整體趨勢性。例如搞一個保暖內衣的調查,找了一群精壯的武警戰士試穿,戰士們穿上了普遍反映不冷,但這並不能說明內衣的保暖效果有多好。
互聯網為大數據的采集帶來的新手段,雲計算為處理大數據帶來了新方法。還以老王為例,他不僅記錄了每個病人來自哪個地區,他還記錄了病人的食物結構,居住環境以及工作環境。於是他從眾多的數據中發現了這樣一個事實,這些癌症病人平時吃的食用油基本上都是豆油,於是就建立了豆油和癌症的相關性,這個相關性,雖然還不能證明“豆油致癌”這一命題,但已經清楚的表明了豆油是致癌的眾多因素之一。以此為基礎,老王可以在治療中明確地告訴病人,從此拒絕豆油,這對病人的恢複以及防止癌症複發“善莫大焉”。這就是大數據的第二個特點【要全體不要抽樣】,對全部數據進行統計分析,其結果當然會更加準確。在此,可能有人會問,豆油是中國人吃了幾千年的食物,怎麽現在就不能吃了呢?這裏就又要提到黑龍江大豆協會的王小語了,原來目前生產豆油的原料已經不是原來傳統的大豆了,而都是進口的轉基因大豆,所以,老王根據大數據分析統計出來的豆油和癌症的高相關性,其本質上是轉基因大豆和癌症的高相關性。黑龍江大豆協會的報告,不是僅僅依據某個人或某一批人患癌的經曆而是匯集了全國癌症病人的分布以及轉基因大豆加工和消費的信息以後得出的轉基因大豆與癌症的高相關性,根據奧卡姆剃刀提出的“相關關係比因果關係更重要”的原則,轉基因大豆致癌已經毋庸置疑了。
 
3、要效率不要精確
既然我們要的是全體數據,自然會夾雜進來一些錯誤的數據,這是難以避免的。我們傳統的數據分析的思路是“寧缺勿爛”,因為傳統小數據分析的數據量本身並不大,任何一個錯誤數據都有可能對結果產生相對較大的負麵影響,對錯誤數據必須花大精力去清除,這是小數據時代必須堅持的原則。
大數據時代的原則就變了,變成了【要效率不要精確】,並不是說精確不好,而是因為在大數據時代是做不到的,如果繼續把排除錯誤數據作為重要工作,那大數據分析就進行不下去了。更重要的是,大數據分析的目標在於預測,而不在於追溯以前發生過的事件的真相。
所以,對某個人來說,也許他從不吃豆油也得了癌症,但這個比例在大數據中就顯得太渺小了,基本可以忽略不計,而對於絕大多數人來說,知道了豆油和癌症的關係以後,改變自己的飲食習慣不吃豆油了,那麽他患癌的風險將大大降低。如果醫療保險公司把吃豆油作為一個考量,對吃豆油的投保人適當提高保費,不吃豆油的人降低保費,這樣一定可以大大增加保險公司的贏利,同時也可以間接地減少政府的醫保壓力。
 
結論:
與以往的抽樣統計不同,大數據使用的是全部數據,更著重的是效率而不是數據的精確性,關注的是相關性而不是因果性,這些特點造就了大數據對事物發展的極強的預測能力,雖然對某個個體來說,他患上癌症的原因無從考究,但老王通過大數據分析,找出其中某些共性的因素的相關性,那麽,老王在診斷和治療中就掌握了一把有效的“鑰匙”,病人的預後也會更好。進一步推而廣之,如果每個人都知道了轉基因大豆和癌症的高相關性,在生活中做到不吃豆油,盡量地避免轉基因,那麽中國目前井噴式的癌症高發病率一定能得到有效的控製。對於國家決策機構來說,由於知道了轉基因大豆和癌症的高相關性,利用大數據的前瞻性,就能從決策層麵製定有效的政策和法律,控製轉基因進口以及生產,進一步加強管理,讓轉基因致癌成為全民共識,這就從源頭上遏製了癌症的高發病率,不僅提高了人民的體質,也為國家省下巨額的醫療保健資金。

後記:
愷钜對奧卡姆剃刀本不了解,隻知道他是個堅定的轉基因“推銷員”,但這篇文章確實讓我看到了他在其本專業領域裏的功力,而他在這篇文章裏宣傳的觀點,恰恰鬼使神差地戳穿推銷轉基因的“科學”外衣。奧卡姆剃刀無疑是個懂科學的人,也是個懂邏輯的人,但是,就是這麽一個人,一個科學人,為什麽會這樣自相矛盾呢?正如田鬆老師說的,要警惕科學,要警惕科學家!因為科學和資本結合,已經成為一個利益共同體,科學家依據資本的利益製造著有利於資本的“知識”,企圖從中分得“一杯羹”,科學已經違背了科學的宗旨。
在一個偶然的機會,愷钜看到了這篇很有意思的科普文章《大數據時代的裸奔》,“以子之矛攻子之盾”,就套用了這篇文章的觀點和結構讓奧卡姆剃刀也為“反轉”貢獻一把子力氣。

奧卡姆剃刀,再次向你致敬!

 
原文:大數據時代的裸奔
奧卡姆剃刀發布於2015114 18:30 .

1、相關關係比因果關係更重要
老王開了個包子鋪,有時做少了不夠賣,有時做多了沒賣完,兩頭都是損失。老王琢磨著買包子的都是街坊,他們買包子是有規律的,例如老張隻在周六買,因為閨女周末會來看他,而且閨女就愛吃包子。於是老王每賣一次就記次賬,誰在哪天買了幾籠包子,並試圖找出每個街坊的買包子規律。
數據雖然越記越多,但老王啥規律也沒找出來,即使是老張也都沒準,好幾個周六都沒來買,因為他閨女有事沒來。有個人給老王支招,你甭記顧客,就記每天賣了多少籠就行,這個法子明顯簡單有效,很容易就看出了周末比平時會多賣兩籠的規律。
這個例子雖然簡單,卻道出了大數據的一個重要特點【相關關係比因果關係更重要】,周末與買包子人多就是相關關係,但為什麽多呢?是因為老張閨女這樣的周六來吃包子的人多?還是周末大家都不願意做飯?對這些可能性不必探究,因為即使探究往往也搞不清楚,隻要獲得了周末買包子的人多,能正確地指導老王在周末時多包上兩籠,這就行了。
要相關不要因果,這是大數據思維的重要變革,以前數據處理的目標更多是追求對因果性的尋找,或是對猜測的因果性的驗證,人們總是習慣性地找出個原因,然後心裏才能踏實,而這個原因是否是真實的,卻往往是無法核實的,而虛假原因對麵向未來的決策來說是有害無益的。承認很多事情是沒有原因的,這是人類思維方式的一個重大進步。
 
2、要全體不要抽樣
傳統的調查方式都是抽樣的,抽取有限的樣本進行統計,從而得出整體的趨勢來,之所以選擇抽樣而不是統計全部數據,隻有一個原因,那就是全部數據的數量太多了,根本沒法操作。
抽樣的核心原則就是隨機性,不隨機就不能反映整體趨勢性。例如搞一個保暖內衣的調查,找了一群精壯的武警戰士試穿,戰士們穿上了普遍反映不冷,但這並不能說明內衣的保暖效果有多好。
抽樣隨機性的道理誰都知道,但要做到隨機性其實是很難的。例如電視收視率調查,要從不同階層隨機找被調查人,但高學曆高收入的大忙人們普遍拒絕被調查,他們根本就不會為幾條毛巾贈品而耽誤時間,願意接受調查的多是整天閑得無聊的低收入者,電視收視率的調查結果就可想而知。
互聯網為大數據的采集帶來的新手段,雲計算為處理大數據帶來了新方法。還以電視收視率調查為例,互聯網電視普及後,每一部電視正在收看什麽節目的信息會毫無遺漏地發送到調查中心。這就是大數據的第二個特點【要全體不要抽樣】,對全部數據進行統計分析,其結果當然會更加準確。
 
3、要效率不要精確
俗話說的好,蘿卜快了不洗泥,既然我們要的是全體數據,自然會夾雜進來一些錯誤的數據,這是難以避免的。我們傳統的數據分析的思路是“寧缺勿爛”,因為傳統小數據分析的數據量本身並不大,任何一個錯誤數據都有可能對結果產生相對較大的負麵影響,對錯誤數據必須花大精力去清除,這是小數據時代必須堅持的原則。
大數據時代的原則就變了,變成了【要效率不要精確】,並不是說精確不好,而是因為在大數據時代是做不到的,如果繼續把排除錯誤數據作為重要工作,那大數據分析就進行不下去了。更重要的是,大數據分析的目標在於預測,而不在於追溯以前發生過的事件的真相。
 
4、大數據時代的裸奔
有次我給學生暢想未來,你走在大街上,基站的智能天線以一道極窄的波束指向你的手機,從而獲得你的方位角,通過開機瞬時的上百次功率調整和探詢,換算後就能獲得你與基站的距離,兩個信息結合就精準地確定了你的位置。根據你的搜索記錄,互聯網早已知道了你的愛好,然後手機“滴”地一聲通知你,你前方10米處右側有您最喜愛吃的鹹豆腐腦店,正在八折酬賓中,“滴”地又來了一聲,老板已得知您是鹹豆腐腦的忠實擁護者,特別給您打五折,來嚐一碗唄。
在我描繪完未來信息社會的全新生活方式後,有個學生問我:我走在大街上,手機“滴”地一聲,通知我前麵有個同誌聚會,係統通過我以前的搜索和看過的片子早已確定了我的性向,並將我的信息經過精確配對發送給了好多基友,但我並不想出櫃,這可咋整啊?
這個學生的玩笑話道出了大數據時代我們都麵臨的一個重大問題,那就是隱私權問題。美國某機構曾做過一個實驗,根據網友的搜索記錄來篩定目標,雖然信息已經進行了模糊,還是有不願意出櫃的基友被篩出來了,基友的媽媽非常震驚和生氣,將該機構告上了法庭。
微博上常有維權人士聲稱電話被政府監聽了,因為手機語音出現了不正常的聲音,其實這是他們多心了,他們的電信知識還停留在用鱷魚夾搭電話線竊聽的階段。並不是說政府不會竊聽,而是說如果政府竊聽你的電話,你是絕對察覺不出來的,多手段全方麵的監控手段早已超出了外行的想象力。即使是技術內行,例如賣國家機密的間諜被收網後往往會馬上崩潰,他所有的電話短信郵件出行會麵談話都有清清楚楚的鐵證。
犯罪成本太高了,將來無死角的攝像監控頭會記錄下一切,即使你犯罪時蒙著麵,根據前兩天你沒蒙臉踩點時的錄像,通過姿態步態的匹配算法就能把你篩選出來。現在公安係統有句話“隻要上手段,沒有查不出來的”,上手段就是指包括攝像頭監控、手機監控、網絡監控等綜合手段。現在的基礎設施還不完善,等將來所有的路燈杆都變成了多傳感監控器,加上強大的大數據分析能力,你還想咋藏?
更有意思的是,將來的犯罪逮捕會變成事前,有天你啥事沒做睡在床上就被逮捕了,警察通告你:根據警方對你所有信息的大數據分析,顯示你已經知道了老婆出軌之事,根據以往犯罪案例及你本人性格的大數據分析結果,你有76.3%的概率會在本周內對老婆進行輕傷以上程度的犯罪,超過了法律規定的60%輕傷以上犯罪概率必須入監的標準,特羈押你一個月,根據大數據分析結果,放出來後的你仍然犯罪的概率會降低到法律規定可以釋放的5%以下。
聽著很安全吧?但是不是也感到了毛骨悚然?在大數據時代,我們每個人都是赤條條地在信息社會中裸奔,真的是光著屁股一絲不掛地那種裸奔,難到沒有人意識到這點嗎?當然不是,英國等西方國家早就對街道監控攝像頭展開了全社會的大討論,安全與隱私該如何權衡?隨著近年來隨著恐怖主義的盛行,安全顯然更重要了,公民們很無奈地同意把更多的隱私權交給了政府,以獲得更大的安全感。
必須對公民隱私信息進行分級製的嚴管,公安部門掌握著每個人的開房信息,如果不涉及到重大違法犯罪的話,絕不能濫加使用,更不能透露給當事人的配偶,否則社會就會大亂。掌握信息和利用信息的應是獨立的兩個機構,如果讓利用信息的公安部分掌管公民所有隱私信息,那就會成為一個人人自危的恐怖國家。
我們現在該如何做好迎接大數據時代的準備?我覺得應該培養公權機構絕不能泄露公民隱私的社會輿論,前幾天網上流傳著範冰冰的機場安檢照,記者們以此做娛樂文章稱人家如何如何,這就是一個極壞的兆頭!如果放任這種公權力的濫用,我們每個人將來都會成為光屁股裸奔的人,光不光屁股則取決於掌握公民信息的權力人士的一念之差。
最近有報道稱銀行內鬼販賣賬戶信息,銀行方麵居然稱這事主要靠自覺,他們內部查不出來。這事也是大惡!查不出來是因為銀行內部缺乏相應的技術手段,根本就沒有建立起相應的信息保密製度,這種不作為是未來大數據時代的嚴重隱患。
前兩天我參加一個學生的婚禮,作為導師我被安排在領導桌,剛坐定就有個陌生人來照相,詢問後才知是婚宴酒商的員工,把我們作為背景來照酒的照片,估計是用於宣傳。我把他轟走了,我不願意這個數據留在網上,不願意讓它將來作為分析我的大數據資料。
 
結論:與以往的抽樣統計不同,大數據使用的是全部數據,更著重的是效率而不是數據的精確性,關注的是相關性而不是因果性,這些特點造就了大數據對事物發展的極強的預測能力,它可以給我們帶來更安全更便捷的新生活,同時也給個人隱私帶來了巨大的威脅,對掌握公民隱私信息的公權力的嚴格控製,應該成為全社會的共識。
 
後記:
我現在基本不寫專欄而改寫長微博了,原因有三個:一是長微博不限字數,而傳統紙媒要求必須在3千字以內,很難通過舉例子的方式把道理講透徹;二是作者們都會討厭編輯的修改,他們往往不能理解作者的真實意圖,改得你非常的難受,而長微博的每一個字都是自己做主的;三是長微博收益高,紙媒文章也就千字幾百,被網友認同的長微博收益要高些,而且網友自願支付,對作者來說更有成就感。
我真不是有些網友謬讚的通信大牛,大牛都在實驗室裏,你見不到也不會認識,我隻是一個教通信專業基礎課的普通老師。如果自誇下,那就是一位知識麵較廣受學生喜愛的好老師,唯一長處就是擅於把複雜的專業問題簡單化,具有一定深入淺出的授課和寫作能力。
業餘時間寫稿子掙點外快是我的生活方式,尤其是在網上這些年的曆練,讓我摸到了針對普通公眾的科普寫法,不管你是學什麽的,我寫的東西保證讓你懂,而且保證你獲得的知識是正確的而且是有價值的。
這篇文章我定的默認打賞額度是4.99元,為什麽是這個數呢?因為 []維克托.邁爾-舍恩伯格肯尼思.庫克耶所著的《大數據時代》一書的定價49.9元,我以此書為基礎,又參考了其它書籍文獻,結合我以前學習過的數據倉庫和數據挖掘知識,把內容進行了提煉和總結。我的想法是:通過閱讀這篇文章,隻花費您原書1/10的金錢,浪費您讀原書的1/10的時間,您就能獲得原書知識的精華。
以前有網友開玩笑說,奧老師你比我掙的多,我就不打賞了啊。我笑著反問他,馬雲比你有錢多了,為啥你還在給淘寶做貢獻呢?那是因為馬雲給你提供了服務,你是為服務付的費,不是給首富馬雲的賞錢,這跟誰掙錢多沒關係,而且我就是個掙死工資的老師,就指著寫點文章掙點外快。
從父母要生活費的學生們不要打賞,把錢留著多打份肉菜吧,我的勞動報酬有已經工作的成年人支付,還輪不到你們為社會秩序做貢獻。踏踏實實地學本領才是正事,絕對不要當微博控,千萬不要跟我攀比,我玩微博寫科普不僅是對自身知識的梳理過程,而且還能掙點錢,你們玩微博就是純粹浪費生命。

 
*其他參考文獻:
 
崔永元轉基因紀錄片中的科學錯誤

“大豆保衛戰”:轉基因大豆油致癌?
[ 打印 ]
閱讀 ()評論 (3)
評論
路邊的小草 回複 悄悄話 很有道理,關於中醫也有類似的情況,20 位中藥一起熬湯,喝下去能治病,找因果關係找不出,不知道是哪種化學成份治好的病,但是相關關係就是存在,老祖宗多年實踐的總結。西醫會說這不科學,因為沒有展示出因果關係,中醫自己也說不清楚。小雞燉蘑菇就是好吃,哪種化學元素讓你感覺好吃不清楚。看來 [大數據] 能改變人們的世界觀。
老農民說兩句 回複 悄悄話 一句話,所有中國科研人員都比不過一個文科生崔永元
stapler123 回複 悄悄話 既然大數據關注相關性,那它的結論還是從數據中得到的,但是它有不關注數據的準確性,那相關性的結論是如何的出來的? 特別是那種模棱兩可的數據判斷。
登錄後才可評論.