大數據是今天的IT領域最受關注的熱門詞匯之一。公司裏開發新產品,有意無意總想跟大數據拉上關係,以顯得自己走在技術的最前沿;同事們在一起聊天,也總愛把大數據這個詞掛在嘴邊,以顯示自己學識淵博,與時俱進。即使是狐朋狗友在微信群裏瞎聊,“大數據”這個詞也時不時地蹦出來:“大數據表明,不要瞎折騰減肥,微胖才是真健康”,“四月是春心蕩漾的季節。根據大數據,30%的戀情在四月會升溫急劇。“
其實,通過大量數據來發現事物背後的規律不是什麽新鮮事,隻是現在技術發展了,數據的搜集和儲存變得越來越便宜和方便,數據的種類和數量都達到了從前沒有的高度,而很多適合處理海量數據的工具也應運而生,為人們分析和利用這些數據提供了方便。所以這個大數據的說法,隻是技術的逐漸進步和升級,並不是什麽革命性的新概念,基本上是新瓶裝舊酒。但必須承認的是,現在大數據在社會上的影響已經不能跟過去同日而語,量變已經快要引起質變。以前隻有幾個做數據分析的人對這個東西感興趣,現在街頭巷尾的販夫走卒全在談論它;過去做夢也想不到數據分析會影響我們的衣食住行,現在卻發現跟大數據有關的經曆在日常生活中俯拾皆是。
上周末我就親身經曆了一個大數據的小故事。最近舊金山藝術博物館在展出一些蘇格蘭國家藝術畫廊的名畫,我們附庸風雅,到藝術博物館看了畫展,然後又到漁人碼頭吃了一頓豐盛的海鮮大餐,度過了愉快的一天。但這近乎完美的一天最後卻出了一個小小的瑕疵:為晚餐付賬時,我們的信用卡被刷卡機拒收。我們在錢包裏搜羅半天,才湊出足夠的現金付了賬。
但賬雖付了,信用卡遭拒畢竟有些蹊蹺,因此我們一回家就給信用卡公司打電話,詢問到底是什麽情況。結果信用卡公司告訴我們,我們的信用卡目前確實不能使用。他們注意到這張卡上有幾樁可疑的交易,因此把卡暫時鎖住了。我們問都有些什麽可疑交易,信用卡公司的客服人員細細地數給我們聽,還果真都不是我們經手的。看來這張信用卡已經被人盜用。而讓人佩服的是,這幾樁交易都是當天發生的。我們自己還渾然不覺,信用卡公司就已經第一時間發現了情況有異。
信用卡公司的神奇武功,當然是以大數據為基礎的。信用卡公司擁有消費者行為的大量數據。他們對這些數據進行分析,找出關聯,建立模型,然後又實時追蹤信用卡持有者的行為,一旦發現異常,就會發出警報,采取行動。在我們的例子中,這個異常就是在很短的時間裏,在相隔一定距離的好幾個地方都發生了信用卡交易。因為信用卡失竊造成的損失通常都由信用卡公司負擔,信用卡公司有足夠的動力來進行風險管理,以及時發現盜竊行為,降低損失。資本的趨利本能和高科技結合,造就了一流的以大數據為基礎的信用卡防盜機製。
還有一個關於大數據的故事也很有意思,因為和我們最關注的高中生申請大學的過程有關。大家都知道,大學尤其是名牌大學的錄取過程在外人看來很像黑箱作業。看上去很相似的兩個申請人,可能一個被收一個被拒;一個各方麵都很優秀的申請人可能屢戰屢敗,而一個條件明明一般的申請人,卻可能所向無敵,大獲全勝。
但有人聲稱他破解了名校錄取學生的秘密,這個人就是升學輔導公司智勝的創始人馬振翼。因為這些年裏升學輔導公司都生意興隆,智勝也輔導了不少學生,積累了一些學生的數據資料。馬振翼聲稱,根據這些數據,智勝已經建立了模型,可以用學生檔案中的12個變量——從高中成績和考試分數到課外活動及移民背景——來計算學生被各個頂尖大學錄取的概率。比如說,他的算法預測,一名在美國出生的高中畢業生,GPA成績3.8,SAT考試分數2000,有適當的領導力,從事過800小時的課外活動,那麽他被紐約大學錄取的概率為20.4%,被南加州大學錄取的概率為28.1%。馬振翼說,“我們的模型比很多大學招生辦的人更清楚如何才能進入他們學校。”
馬振翼推銷他的升學指導服務時,使用了“大數據”這個詞。其實,他的數據庫充其量有幾千個學生的數據,實在是小得不能再小。稱之為大數據,顯然是想搭炙手可熱的大數據的順風車,有嘩眾取寵之嫌。而且,他的模型是否準確,到底有多準確,隻聽馬振翼的一家之言當然遠遠不夠。美國大學招生辦的人員和其他教育工作者對馬振翼的模型就嗤之以鼻。他們說,沒人可以預測頂尖大學的錄取結果,因為成績和分數隻是非常主觀的錄取過程中的一部分。馬振翼反駁說,任何事情都可以量化。 “有了足夠的數據,”他說,“沒有任何東西是主觀性的。”聽起來也有點道理。當然,馬振翼提供的升學服務中包括一種“擔保服務”:保證學生可以進入某些大學,否則給家長退款。這種服務的收費是根據學生的條件和他想申請的學校名單來計算的,要定價合理,保證不虧錢,當然最好有一個可以計算錄取概率的模型,所以說他有這樣一個模型,我是完全相信的。但對我們外人來說,這還是一個道聽途說、死無對證的模型,所以這個大數據的故事,隻能算是半個。
還有一個關於大數據的故事名氣更大,我在不止一個地方讀到過,聽說的人肯定也很多。但我實在是喜歡這個故事,所以還是把它作為這篇文章要講的三個故事的最後一個。美國連鎖零售商店Target這些年生意很紅火,不但店越開越多,而且店麵明亮整潔,店裏的東西價廉物美,一看就管理有方。而這個管理有方的特征之一,就是他們的大數據分析做得不錯。Target顧客的購物行為的數據,是個取之不盡、用之不竭的金礦。如果對這些數據妥善地加以利用,可以讓它們發揮極大的作用。比如說,如果仔細研究顧客的購物行為之間的關聯,建立統計模型,從顧客的某些購物行為,推斷出顧客可能會有某些其他購物行為,因而有針對性地向顧客發送廣告,以影響和指導顧客的消費,對促進銷售,增加贏利,當然可以有所幫助。
Target確實這麽做了,於是便有了下麵的小故事。有一天,一位父親走進住家附近的一間Target,憤怒地揮舞著Target寄給她女兒的減價券,要求見經理。
“我女兒收到了這個!”他說。“她還在念高中,你們就給她寄嬰兒衣服嬰兒床的減價券!你們是想鼓勵她懷孕嗎?”
經理問明情況,覺得很不好意思,誠懇地向父親道了歉。而且,這個經理大概是個非常細心負責的人,幾天之後,他又再次給這位父親打了電話。
但父親不再像前幾天那麽氣勢洶洶,事實上他甚至有點局促不安。最後他終於說,“我跟我女兒談過了。看來我家裏確實發生了一些我不知道的事情。她的預產期在八月,我應該向你們道歉。”
原來,Target的統計模型能夠根據顧客的一些購買細節,推斷這家人是否正在期待一個嬰兒的降生。跟女兒住在一個屋簷下的父親還一無所知,Target就已經從女兒的一些行為中知道了女兒的秘密。
Target這種窺探我們的生活隱私的本領,當然是讓人感到有些不安的,事實上很多以大數據為基礎的分析工具都會讓我們感到自己的空間受到了侵犯。但不去談其中的法律和倫理問題,“窺探”確實是大數據的特點。運用得當的時候,心理學、經濟學原理不能解釋的或者還沒有發現的規律,卻可以從大量的數據中凸顯出來,而很多現象和行為之間的聯係,不要說身邊的人不知道,就連被研究對象本身都根本沒有覺察。但這也正是大數據的價值所在。因為這些信息中包含著巨大的商業價值,新興的技術又讓大數據分析成為可能,一定會有越來越多的人想要得到它們,並運用它們來獲利。所以,不管我們喜歡還是不喜歡,關於大數據的小故事,以後在生活中隻會更加頻繁地出現。