大數據等於大忽悠嗎？

來源: menmei 於 2015-03-30 23:03:09 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (17051 bytes)

【摘要】本文為劉德寰教授在騰訊思享會上的演講，以三個觀點展開：大數據確實帶來了大的機會；大數據本身非常像大忽悠；大數據也引來了大風險。

“大數據”實際上現在是一個非常重要，非常熱的詞匯。22年前我開了一門課叫“數據分析”，冷的不能再冷了。現在突然熱了，甚至熱得讓人受不了。

大數據實際上有三個主要的理解：大數據確實帶來了大的機會；大數據本身非常像大忽悠；大數據也引來了大風險。我的演講主題從這三個點上展開。

大數據帶來大機會：各行各業突飛猛進地運用打大數據

先說大數據。大數據到來之後，包括電子商務，零售企業，交通運輸，信息產業，公共衛生，教育以及生產企業對零部件的監測，各個產業實際上都在突飛猛進地運用大數據。在這當中，在全球範圍內形成了很多重要的案例，我簡單介紹幾個。

在大數據領域做的最好的一個公司叫Target。它用抽樣調查和大數據結合，構造了整個智能的廣告推送係統，做得非常非常好，後麵我會用一個案例來講。

有一個在全球範圍內影響力非常大的公司叫TESCO，在中國叫樂購。它用的是一個抽樣實驗加分析，然後進行大數據推送。TESCO能夠保證任何一個人隻要在這裏有了一個完整的消費之後，你出來的那一刹那看到的廣告和你進來時是完全不一樣的。因為他會根據你的需求來推送完全不同的東西。但是大家也要注意，這當中的前提是實驗。TESCO每天都在進行上百個實驗。

另外一個是大家都比較熟悉的服裝品牌ZARA。ZARA玩的是一個比較傳統的方式。它用視頻監測，不僅僅看你是否偷了衣服，更重要的是記錄你的行為。每一個店長就是調查員，每天收集幾千個數據，找尋消費者的需求，這也可以叫調查。曆時很長的話就有數據量的影響。

在整個信息產業當中，尤其電商中做得比較好的是亞馬遜。它在大數據應用中最典型的傳統的方式是行為痕跡的建模和文本挖掘的結合，構建它的數據係統。

還有一個是沃爾瑪。它花錢買了一個不到100人的做社交大數據分析的公司Kosmix，同時還建了一個倉儲的大數據工具。這是幾個非常典型的國外的例子。實際上國內也一樣，我本人參與了幾個。

我們理解大數據的時候可能都知道一個概念叫“尿布與啤酒”。實際上這個案例在那個時代還沒有大數據的情況下，用零售數據發現了某種規律，然後用傳統的思想研究陪伴購物構建出來的。但是現在來應用這種方式，隻要我們把這些信息補全之後，構造的連帶關係的分析和購物籃的分析要遠遠超過“尿布與啤酒”。

我們看下麵的案例，假設一個人買了A牌的衛生紙，B牌的護手霜，他買C牌牛奶的可能性是其他人的4.84倍，買某種餅幹的可能性是其他人的4.82倍。如果他買了某種牌子的鹽，那他買某品牌香煙的可能性是其他人的4.44倍。這隻是把它截斷出來，實際上這個數據是一個非常長的購物籃技術。在這類分析中，實際上我們會發現它本身依賴的確實有大數據的源頭，但是真正在分析當中也會麵臨其他問題。所以，我今天更重要的是要講大數據與大忽悠。

現在“雲”很多，到底是浮雲還是真正的計算雲不好說。如果我們要分析的話，大數據引領的一個時代是一個非常有意思的事情。在沒有總結總體性規律的時候，我們直接對個體進行理解，這實際上跟我們常識性的學術研究的邏輯相違背。這種方法簡單、實用、粗暴。實際驗證的結果不一定有效。後麵我拿穀歌的案例來看。

現在有一本書很重要，叫《大數據時代》。書裏有兩個非常值得商榷的觀點，一個是對抽樣的極端蔑視，另一個是無原則地推崇相關。我會在後麵把這兩個點進行比較詳細的展開。

大數據引來的大風險：到處都是假規律

實際上大數據帶來了幾個非常重要的風險。

第一是計算速度。現在速度快極了。Hadoop速度非常快，是調取、存儲和歸整數據的極好的工具。但是對挖掘數據來講，這個工具並沒有那麽好。前一段時間，我們做了一個曆時半年的900萬用戶的智能手機使用習慣的研究。在數據建模的時候我們發現，計算速度實際是一個非常大的問題。我們把16台頂級服務器連成一個超級計算機，在這個基礎上把模型建好，運算全數據的過程花了整整21天。我相信航天這些的運算速度沒有問題，但是學界的，商用的的東西中，計算速度存在著非常大的問題。

第二，海量數據非常危險。隻要玩大數據的人會發現到處都是假規律。我拿一個小數據，比如五千個樣本做一個非常簡單的線性回歸的時候發現有三個變量線性顯著。但是沒做任何變化，把這個變量複製倍，顯著的比例可能五個了，到33萬的時候可能所有變量之間的關係都顯著了。問題是統計上都顯著了，但所有這些結果都是錯的。當數據運算量大到大約33萬到70萬之間時，我們會發現一個非常重要的哲學問題。這個哲學問題是什麽呢？——萬物都是有聯係的。這件事情非常可怕非常麻煩，到底什麽是真的規律？1970年有一個學者安德森說過“多帶來不同”，那個時代提出這個觀點非常好。但是現在“多”帶來的真的是不同嗎？帶來的是迷茫，自我高潮和假規律。這點非常危險。

斯坦福大學的TrevorHastie說了一句著名的話，“在稻草裏找一根針”。問題是很多稻草長得跟針是一樣的，這是所有大數據研究麵臨的最大風險。數據太大之後帶來的實際上是規律的喪失和失真，所以千萬不要忽視了抽樣。我們在900萬用戶的分析中，如果當時直接拿出900萬的數據，用6個月的時間，進行移動互聯網行為建模，估計到今天我這個模型也建不出來。我們用的事不斷探測的過程辦法，等於先在裏麵抽了40萬，然後在40萬中又抽了2000人做問卷調查，來理解這套數據的邏輯。用40萬進行常識性建模，然後再在900萬中進行建模，再優化它，形成最後的結果。不要忽視抽樣，不要因為我們有了大數據就把傳統的知識去掉。

第三個風險也是非常重要的。現在的數據是斷裂而封閉的。比如騰訊說我有全數據，你是很全，但你到底有沒有百度的？有沒有京東的？阿裏的？如果沒有怎麽談得上全呢？最近出現了一個好的形象性的詞匯——“數據孤島”。我們在喊大數據的過程中形成一個個數據孤島，在這些孤島沒有打破之前，我們基本上談不上“全”這個詞，更甭說這個數據內部的斷裂結構。

第四個風險是缺失。對所有的大數據來講，分析一個小問題的時候，數據量都不大。幾百萬，一千萬，這個數據量都是可控可選的。對於所有人來講，要是進行一個全分析時都是缺損永遠多於數據。在這種建構過程中，在數學統計學上有兩個很重要的詞，一個叫技術矩陣，一個叫程序矩陣。單獨分析都問題不大，最怕的是這兩個混合。微博、微信合在一起一定是容易的。但是微博和一個非常小的技術合在一起，就是一個信息一個技術，怎麽分析它？這點難度是極大的。

大數據時代真的是來了，它教育了一種觀念。所以，我覺得《大數據時代》這本書非常好，我要求我的學生必須讀，但是在批判的視角下讀，因為裏麵有一些比較危險的結論。

大數據本身很像大忽悠：精準營銷如何變成了精準騷擾？

第二個要講忽悠的問題。我們實際上沒看明白幾個詞，數據整理、展示、描述和挖掘是完全不同的概念。整理、描述、展示一個數據，用CRM、ERP很容易，它是簡單問題。但是挖掘是一個複雜問題。如果我們整理數據會發現有一些所謂大數據模型是這樣的：用一個模型代替重要的發展用戶。但是問題是同樣一種行為或者同一個人，我們的想法完全不一樣，怎麽可能用一個模型能夠替代了呢？這個實際上你會發現它就是一個空中樓閣一樣，因為隻見數據不見人是非常危險的。

數據展示形成一個非常重要的流派叫數據可視化，我對這些朋友心存敬意。因為國外的可視化技術到最後基本上是藝術。漂亮嗎？很漂亮，但是得出了什麽結論呢？誰粉絲多誰轉化率高。於建嶸老師比我粉絲多多了，他的轉發量一定比我高，轉發率呢？可視化的感受非常好，但它隻屬於展示，並沒有分析內在的規律。

我們曾經做過一個簡單的抽樣調查。我們建模分析的是2003年淘寶在全中國運行之後，對中國網絡帶來的影響。這個時候總共用一張圖展現不了，得用16張圖展示一個現象。我可能有點兒孤陋寡聞，但現在還沒有見到其他研究使用這種比較深入的分析方式。

真正數據挖掘在國外的經典案例當中，Target的案例最有典型意義。生活改變會導致購物行為的變化，然後會有一些大數據推送方式的變化。營銷學、廣告學、公共衛生學、心理學、數據分析、數據挖掘，所有這些知識是混合性知識，大數據恰恰需要這種混合才可能做好。

前兩天我買了一個5升的洗衣液，家裏人再多，我至少也得用一個月。同時你也要知道我買的時候我是別的什麽都沒看，直接到那兒下完單就走了，這說明我是品牌忠誠者。你應該做的不是在我一上網的時候就推送一大堆各種品牌的洗衣，你應該告訴我這個品牌洗衣液在什麽時間打折，這才叫大數據分析。

數據挖掘的商業本質要簡單不能再簡單，但是過程非常複雜。不是簡單的CRM、ERP跑一圈兒就給你推送。那是從精準營銷蛻變為精準騷擾。

所以，數據挖掘不是黑箱，不是一個調動數據的方法，也不是整理數據的方法。它實際上需要在思想的基礎上做。真正進行跟人相關的大數據挖掘的時候一定要關注人性。很多人說網購起來之後實體店不行了。如果實體店真的不行了，年輕女孩到哪兒揮灑青春？沒勁兒了。逛街的核心在逛，不在於買。要了解人性再去建那種模型才會有意義。很多人說喬布斯不相信調查。喬布斯最基本的習慣，經常整天躲在蘋果體驗店前的灌木叢中看體驗店裏的人在幹嘛。這是典型的觀察法，是人類研究問題最早期的研究方法。所以，知覺、體驗、靈機一動、體會、內省，所有這些看起來跟大數據無關的東西可能恰恰是大數據的核心，因為它是思想。

穀歌在2008年的時候開發一個非常重要的東西，叫流感趨勢預測，最初它預測的結果比美國疾控中心的預測結果還準，轟動了全球。結果接下來你會發現它那個東西越來越亂，嚴重高估了流感的狀態。為什麽？就是因為剛才談到的維克多·邁爾-舍恩伯格這一流派在談大數據的時候重相關不重因果。無論真相關假相關，相關就中，正是假相關造就了穀歌的失敗。假相關怎麽來的？某一次流感發病的時間點，比如跟美國中學生籃球賽那個時間點是完全一致的。你說這倆概念能有關係嗎？問題是隻要搜索中學生的籃球賽，就構成了流感預測的一個主要的詞之一。類似的東西太多了，為什麽？因為在穀歌預測的時候，沒有找疾控專家。這些東西才是進行大數據預測的一個很重要的前提。

雖然穀歌不斷調整和完善算法，但它一旦把這個事情說出來之後，為了驗證一下這件事兒，很多人開始使用這個產品。消費者的好奇心是驚人的，他們一玩兒就使這個數變的非常大。所以，從那以後一次也沒有預測準美國的流感。人的行為在這裏麵的作用實際上是計算機考慮不到的。這裏麵就是過度擬合、虛假相關和人性這幾個問題造就了穀歌的錯誤。

這時你也會發現這些商業公司在做的時候，更多是跟商業邏輯相關的一個概念。它真的不是純的研究，而且我們並不知道它整個計算的完整過程。所以，掌握大數據本身並不等於是擁有良好的數據。這是美國《科學》雜誌在係統評估穀歌的時候說出來的一句話。

大數據隻是一個工具，不能替代基礎知識

在實際的商業應用中，現在這個時代，要一攬子把大數據這個概念說透，我覺得神仙也做不到。在現實的應用中，大數據小應用是一個核心方式。前麵我提到的五個國外的比較好的成功案例當中，沒有一個不包含抽樣，沒有一個不包含小數據。也就是說大數據不能忽視各個專業的基礎知識，比如曆史學、法學、政治學、社會學、心理學，大數據本身不構成帶來知識的積累，它隻是帶來一個數的變化。

算法如果依賴了對這個獨立領域的深度理解，再去跟IT、數學的技能連在一起，會做出一個比較好的大數據分析。隻靠一個算法得到得那種知識非常快，但是從現來看，錯誤率也是極高的。算法本身還是依賴於人。所以，人工智能的中文翻譯真是挺好的，沒有人工，無法智能，所以叫“人工智能”，這是確確實實有道理的一個概念。

從我個人理解來講，大數據運算本身構造給大家一個有更多能力的新的算盤，你說算盤有用嗎？確確實實有用，但是算盤代表了所有知識嗎？不可能。它是給我們提供了一個各個領域都能夠用的一個工具。

商業本質當中，純IT人員可能真的無法做好挖掘這個概念。能做好整理、展示、調取，但是挖掘很難，可能需要市場研究的、營銷方麵的專業人員。另外如果是曆史就讓曆史學家同時介入，如果社會就讓社會學家同時介入，這個時候可能能把東西做好。

當然，大數據還有一個小主題就是風險。風險這一塊兒很多人在談，有治安的問題，有侵犯個人隱私的問題。現在尤其在車聯網、物聯網的發展過程中，甚至以後我們買的任何一個東西，我們的油煙機、冰箱、洗衣機、電視裏麵都有定位。因為那時一個定位裝置可能就十塊錢，非常便宜。你的位置，你在這個城市大概的覆蓋的邏輯我都知道了，然後我能夠傳到網絡上去。如果我們滿屋子都是Wifi的時候，會不會造成公共健康問題？我不是這個領域的人，我真的不知道會不會有。未來如果真的建構出了那種智能性的機器人，說實話，我們在座的這些人合在一起絕對打不過一個機器人。謝謝大家。

更多我的博客文章>>>