ZT“大數據時代”已經降臨,你在數字方麵很拿手?數據令你感到著迷?那麽你聽到的聲音是機會正在敲門

本文內容已被 [ tianfangye ] 在 2012-02-14 06:15:52 編輯過。如有問題,請報告版主或論壇管理刪除.

美國今天刊載文章稱,“大數據時代”已經降臨,在這一領域擁有專長的人士正麵臨許多機會。文章指出,“大數據”正在對每個領域都造成影響。舉例來說,在商業、經濟及其他領域中,決策行為將日益基於數據和分析而作出,而並非基於經驗和直覺;而在公共衛生、經濟發展和經濟預測等領域中,“大數據”的預見能力也已經嶄露頭角。以下是這篇文章的全文。

你在數字方麵很拿手?數據令你感到著迷?那麽你聽到的聲音是機會正在敲門。

作為一名剛剛畢業的耶魯大學MBA(工商管理碩士),周默(音譯)在去年夏天被IBM搶聘,加入了該公司迅速增長中的數據顧問團隊。IBM數據顧問的職責是幫助企業弄明白數據爆炸背後的意義----網絡流量和社交網絡評論,以及監控出貨量、供應商和客戶的軟件和傳感器等----用來指導決策、削減成本和提高銷售額。“我一直都熱愛數字。”周默說道,她的崗位是數據分析師,與其所學的技能相符合。

為了開發數據洪流,美國將需要許多象她一樣的人。據顧問公司麥肯錫旗下研究部門麥肯錫全球學會(McKinsey Global Institute)去年發布的一份報告顯示,預計美國需要14萬名到19萬名擁有“深度分析”專長的工作者,以及150萬名更加精通數據的經理人,無論是已退休人士還是已受聘人士。

數據充斥所帶來的影響遠遠超出了企業界。舉例來說,賈斯汀-格裏莫(Justin Grimmer)是新生代的政治科學家,他現年28歲,在斯坦福大學任助理教授。在大學生和研究生時期的研究報告中,他將數學與政治科學聯係起來,稱其看到了“一個機會,原因是紀律正日益變得數據密集化”。他研究的內容涉及對博客文章、國會演講和新聞稿進行計算機自動化分析等,希望借此洞察政治觀點是如何傳播的。

在科學和體育、廣告和公共衛生等其他許多領域中,也有著類似的情況----也就是朝著數據驅動型的發現和決策的方向發生轉變。哈佛大學量化社會科學學院(Institute for Quantitative Social Science)院長加裏-金(Gary King)稱:“這是一種革命,我們確實正在進行這場革命,龐大的新數據來源所帶來的量化轉變將在學術界、企業界和政界中迅速蔓延開來。沒有哪個領域不會受到影響。”

歡迎來到“大數據時代”(Age of Big Data)。矽穀新貴們----最初是在穀歌(微博),現在是在Facebook----都精通於駕馭網絡數據(網絡搜索、帖子和信息等)與互聯網廣告之間的關係。在上個月於瑞士達沃斯召開的世界經濟論壇上,大數據是討論的主題之一。這個論壇上發布的一份題為《大數據,大影響》(Big Data, Big Impact)的報告宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。

“生命中的一天”(Day in the Life)係列攝影作品的創作人裏克-斯莫蘭(Rick Smolan)正計劃在今年晚些時候推出一個新項目,這個名為“大數據的人類臉孔”(The Human Face of Big Data)的項目將記錄數據的采集和使用。斯莫蘭是一名狂熱分子,他認為“大數據”有成為“人性儀表盤”的潛力,也就是一種能幫助人類與貧窮、犯罪和汙染等現象展開鬥爭的智能工具。而私人部門的倡導組織則持有悲觀的觀點,警告稱“大數據”與“獨裁者”(Big Brother)同出一轍,隻是披上了企業的外衣。

什麽是“大數據”?這當然是一個帶有文化基因和營銷理念的詞匯,但同時也反映了科技領域中正在發展中的趨勢,這種趨勢為理解這個世界和作出決策的新方法開啟了一扇大門。根據科技研究公司IDC作出的估測,數據一直都在以每年50%的速度增長,換而言之,也就是每兩年就增長一倍。這不是簡單的數據增多的問題,而是全新的問題。舉例來說,在當今全球範圍內的工業設備、汽車、電子儀表和裝運箱中,都有著無數的數字傳感器,這些傳感器能測量和交流位置、運動、震動、溫度和濕度等數據,甚至還能測量空氣中的化學變化。

將這些交流傳感器與計算智能連接起來,那麽你就會看到所謂的“物聯網”(Internet of Things)或“工業互聯網”(Industrial Internet)。在信息獲取的問題上取得進步也是促進“大數據”趨勢發展的原因之一。舉例來說,政府數據----聘用數據及其他信息----一直都在穩步地向網絡轉移。在2009年中,美國政府通過啟動Data.gov網站的方式進一步開放了數據的大門,這個網站向公眾提供各種各樣的政府數據。

數據不僅僅是正在變得更加可用,同時也正在變得更加容易被計算機所理解。“大數據”發展趨勢中所增加的大部分數據都是在自然環境下產生的,比如說網絡言論、圖片和視頻等不受控製的東西,以及來自於傳感器的數據等。這些是所謂的“非結構化數據”,通常不能為傳統的數據庫所用。

但是,旨在從互聯網時代非結構化數據的龐大“寶藏”中獲得知識和洞察力的計算機工具正在迅速發展中。在這種工具發展的最前沿是迅速取得進步的人工智能(AI)技術,比如說自然語言處理、模式識別和機器學習等。

這些人工智能技術能應用於許多領域。舉例來說,穀歌的搜索和廣告業務及其實驗中的機器人(19.530,0.13,0.67%)汽車都利用了很多的人工智能技術。在加利福尼亞州的公路上,穀歌的機器人汽車已經跑了數千英裏的路。穀歌的這兩項業務都讓“大數據”時代的挑戰卻步,它們對數量龐大的數據進行分析,並作出瞬時的決策。

反過來,大量的新數據也正在加快計算領域的進步,這是“大數據”時代中的一個良性循環。舉例來說,機器學習算法能基於數據來進行學習,數據越多機器就能學到越多。以蘋果在去年秋天推出的iPhohne手機Siri語音助理服務為例,這個應用的源頭可回溯至五角大樓的一個研究項目,該項目隨後被分離出來,成為了一家矽穀創業公司。蘋果在2010年收購了Siri,並繼續向其提供更多數據。時至今日,在人們提供成百上千萬條問題的環境下,Siri正在變成一種日益熟練的個人助理,能向用戶提供提醒服務、天氣預報、餐飲建議和對大量問題作出解答等服務。

麻省理工學院斯隆管理學院的經濟學教授埃裏克-布呂諾爾夫鬆(Erik Brynjolfsson)稱,如果想要理解“大數據”的潛在影響力,那麽可以看看顯微鏡的例子。顯微鏡是在四個世紀以前發明的,能讓人們看到以前從來都無法看到的事物並對其進行測量----在細胞的層麵上。顯微鏡是測量領域中的一場革命。

呂諾爾夫鬆解釋稱,數據測量就相當於是現代版的顯微鏡。舉個例子,穀歌搜索、Facebook帖子和Twitter消息使得對人們行為和情緒的細節化測量成為可能。

呂諾爾夫鬆進一步指出,在商業、經濟及其他領域中,決策行為將日益基於數據和分析而作出,而並非基於經驗和直覺。“我們能開始變得遠為科學化。”他這樣說道。

有很多的軼事證據表明,數據至上的思考方式將帶來很高的回報。其中,最著名的例子仍舊是邁克爾-劉易斯(Michael Lewis)在2003年出版的《點球成金》(Moneyball)一書,這本書記錄了低預算的奧克蘭運動家隊是如何利用經過分析的數據和晦澀難解的棒球統計學來找到被評價過低的棒球手的。在布拉德-皮特(Brad Pitt)主演的電影版《點球成金》去年被搬上銀幕以前,深度的數據分析就不僅已經成為棒球領域中的標準,而且在英國足球聯賽等其他體育項目中也是如此。

沃爾瑪(WMT)和Kohl’s等零售商也已經開始對銷售額、定價以及經濟學、人口統計學和天氣數據進行分析,借此在特定的連鎖店中選擇合適的上架產品,並基於這些分析來判定商品減價的時機。UPS等貨運公司也正在對卡車交貨時間和交通模式等相關數據進行分析,以此對其運輸路線進行微調。

Match.com等交友網站也經常會仔細查看其網站上列出的個人特征、回應和交流信息,用來改進其算法,從而為想要約會的男女提供更好的配對。在全美範圍內,以紐約市為首的警方部門也正在使用計算機化的地圖以及對曆史性逮捕模式、發薪日、體育項目、降雨天氣和假日等變量進行分析,從而試圖對最可能發生罪案的“熱點”地區作出預測,並預先在這些地區部署警力。

呂諾爾夫鬆及其兩名同僚在去年發表研究報告稱,數據指導下的管理活動正在美國企業界中蔓延開來,而且這種管理活動正開始獲得回報。這三名學者對179家大型公司進行了研究,發現那些采用“數據驅動型決策”模式的公司能將其生產力提高5%到6%,這種生產力的提高是很難用其他因素來解釋的。

在公共衛生、經濟發展和經濟預測等領域中,“大數據”的預見能力正在被開發中,而且已經嶄露頭角。研究者發現,曾有一次他們發現“流感症狀”和“流感治療”等詞匯在穀歌上的搜索查詢量增加;而在幾個星期以後,到某個地區醫院急診室就診的流感病人數量就有所增加(還需要指出的是,醫院急診室發布報告的時間通常要比病人就診的時間晚上兩個星期左右)。

聯合國(微博)已經推出了名為“全球脈動”(Global Pulse)的新項目,希望利用“大數據”來促進全球經濟發展。聯合國將進行所謂的“情緒分析”,使用自然語言解密軟件來對社交網站和文本消息中的信息作出分析,用來幫助預測某個給定地區的失業率、支出削減或是疾病爆發等現象,其目標在於利用數字化的早期預警信號來提前指導援助項目,以阻止某個地區重新陷入貧困等困境。

在經濟預測領域中,已經有研究表明,與不動產經濟學家所作出的預測相比,穀歌上住房相關搜索查詢量的增加或減少的趨勢能更加準確地預測未來一個季度中的住房市場走勢。美聯儲及其他機構已經注意到這一點。在去年7月份,美國國家經濟研究局(National Bureau of Economic Research)主持召開了一次研討會,此次會議所討論的內容是“大數據時代的機會”及其對經濟領域的影響。

“大數據”還已經令針對社交網絡運作方式的研究發生了變化。在20世紀60年代,哈佛大學的斯坦利-米爾格拉姆(Stanley Milgram)利用包裹作為研究媒介,進行了一項與社交網絡相關的著名實驗。他將包裹寄往美國中西部地區的誌願者,指導他們如何將包裹帶給波士頓的陌生人,但不能直接交付;參與實驗者如果想要通過郵寄方式來交付包裹,那麽目標對象就是能是他們認識的人。結果表明,一個包裹換手的平均次數相當之低,僅為6次左右。這是對所謂“小世界現象”的經典闡釋,據此形成了“六度分隔”(six degrees of separation)的流行詞匯。

時至今日,社交網絡研究的內容涉及如何采集龐大的數字化數據集合,用來闡釋網絡上的集體化行為。這種研究的結果表明,你認識但不經常聯係的人----在社會學中被稱為“微弱聯係”(weak ties)----是職務空缺小道消息的最佳來源,原因是與關係親密的朋友相比,這些人在略有不同的社交世界中穿行,因此能看到你和你最好的朋友們所無法看到的機會。

在有關某個主題的交流中,研究學者們還能看到其影響模式和高峰----舉例來說,可以通過追蹤Twitter上的趨勢標簽的方式來達成這個目標。對於數量龐大的用戶人群來說,Twitter這個在線“玻璃魚缸”是透視其實時行為的窗口。康奈爾大學教授喬恩-克倫伯格(Jon Kleinberg)稱:“我尋找的是數據中的‘熱點’,這是我需要理解的一種活動爆發的現象。隻有通過‘大數據’,你才能做到這一點。”

毫無疑問,“大數據”本身也存在一些風險。統計學家和計算機科學家指出,“大數據”的集合和高密度的測量將令“錯誤發現”的風險增長。斯坦福大學的統計學教授特來沃爾-哈斯迪(Trevor Hastie)稱,如果想要在龐大的數據“幹草垛”中找到一根有意義的“針”,那麽所將麵臨的問題就是“許多稻草看起來就像是針一樣”。

此外,對於統計學惡作劇和有偏見的實情調查活動而言,“大數據”也提供了更多的原材料。“大數據”為一個老把戲提供了高科技的手段,那就是----我知道事實,現在讓我們來找到事實吧。喬治梅森大學的數學家瑞貝卡(6.99,0.03,0.43%)-高爾丁(Rebecca Goldin)稱,這是“最有害的數據使用方式之一”。

數據已被計算機和數學模型所馴服和理解,這些模型就像是文學中的隱喻修辭,也就是一種簡化後的解釋方式。對於理解數據而言,這些模式是有用的,但它們也存在局限性。私人部門的倡導組織發出警告稱,一個基於網絡搜索的模式可能會發現一種相關性,從而作出不公平或是帶有歧視性的統計推斷,對產品、銀行貸款和養老基金提供的醫療保險造成影響。

雖然麵臨著這種警告,但“大數據”時代的降臨看起來已是無可逆轉。數據已經坐到了駕駛員的位置上,它就在那裏,有用而且寶貴,甚至還很時尚。

資深數據分析師稱,長期以來,朋友們一談到他們的工作就會變得厭煩,但現在突然變得好奇起來。這些分析師們認為,《點球成金》是促成這一變化的原因之一,但實際原因遠非如此簡單。哥倫比亞大學統計學家兼政治科學家安德魯-格爾曼(Andrew Gelman)稱:“文化已經發生了改變。現在人們的想法是,數字和統計學是有趣的,是一種很酷的東西。”

請您先登陸,再發跟帖!