“大數據”(BigData)是繼雲計算、物聯網之後IT產業又一次顛覆性的技術變革。當今信息時代所產生的數據量已經大到無法用傳統的工具進行采集、存儲、管理和分析。大數據不是雲計算,而是雲計算的終極目標和升級方向;大數據隻有當針對某個方麵的應用,找出數據源,確定數據量,選擇處理方法,並得出最終結果的過程才有意義。即:大數據=互聯網+有價值的數據+應用+方法。互聯網是大數據的載體;離開了一定量的數據,大數據就失去了靈魂;避開實際應用數據量再大也將毫無意義;沒有正確的方法管理數據,應用就成了無本之木。
而無論是分析專家還是數據科學家最終都會殊途同歸的探索新的,無法想象的龐大數據集,以期發現一些有價值的趨勢、形態和解決問題的方法。由於多大數據源都是半結構化或多結構化的,而不是非結構化的,因此處理數據不像處理傳統結構化數據那麽簡單。而要處理半結構化的數據,不但需要花費很多時間,而且也很難找出解決問題的方法。這也是為什麽人們很難就大數據給出一個即嚴格又準確的定義,而是用幾乎玄學的說法去神話它的存在。這也是為什麽大數據發展至今也沒有建立起一套完整的理論體係的原因所在。對它的定義也多少有些牽強附會和模棱兩可。
今天大數據時代已悄然來到我們身邊,並滲透到我們每個人的日常生活消費之中,每時每刻,事無巨細,誰都無法回避,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的雲計算,無法抵禦的虛擬仿真的環境和隨處可在的網絡服務,這就是大數據帶給人類的福音。說穿了,大數據就是互聯網的產物,同時它又讓互聯網生機無限。而隨著互聯網的技術的蓬勃發展,我們一定會迎來大數據的智能時代,即大數據的技術和你我生活緊密相連,它也再不僅僅是人們津津樂道的一種時尚,而是作為我們生活上的向導和助手存在於世。我們完全有理由期待著這一天早日到來。
一、大數據的基本概念
大數據(BigData)是繼雲計算、物聯網之後IT產業又一次顛覆性的技術變革。當今信息時代所產生的數據量已經大到無法用傳統的工具進行采集、存儲、管理與分析。全球產生的數據量,僅在2011就達到1ZB,且根據預測,未來十年全球數據存儲量將增長50倍。大數據不是雲計算, 而是雲計算的終極目標和升級方向,更是數據量,實際應用以及處理方法的過程和結果。即:
大數據=數據量+實際應用+處理方法
離開了一定的數據量,大數據就失去了靈魂; 避開實際應用數據量再大也將毫無意義;沒有正確的方法管理數據量,應用就成了無本之木。總之無論是分析專家還是數據科學家最終都會殊途同歸的去探索新的,無法想象的龐大數據集,以發現一些有價值的趨、形態和解決問題的方法。由於數據源和相關應用之間的關係的複雜性,即很多大數據源都是半結構化或多結構化的,而不是非結構化的,因此處理數據不像處理傳統結構化數據那麽簡單,要駕馭半結構化的數據,需要花費很多時間,且很難找出處理它們的方法。因此人們很難就大數據給出一個即嚴格又準確的定義,而是用幾乎玄學的說法去神話它的存在。這也是為什麽大數據發展至今也沒有建立起一套完整的理論體係的原因所在。而很多對它的所謂定義都很牽強和模棱兩可。技術層麵上看,大數據無法用單台的計算機進行處理,而必須采用分布式計算架構。它的特色在於對海量數據的挖掘,但它必須依托一些現有的數據處理方法,如雲計算的分布式處理、分布式數據庫、雲存儲和/或虛擬化技術。
二、大數據的發展簡史
回顧過去的50 多年,我們可以看到IT 產業已經經曆過幾輪新興和重疊的技術浪潮。這裏麵的每一波浪潮都是由新興的IT 供應商主導的。他們改變了已有的秩序,重新定義了已有的計算機規範,並為進入新時代鋪平了道路。所有這一切開始於60 年代和70 年代的大型機浪潮,它是以BUNCH(Burroughs、Univac、NCR、Control Data 和Honeywell)等公司為首的。然後,在步入70 年代和80 年代後,小型機浪潮和分布式計算湧現出來,為首的公司包括:DEC、IBM、Data General、Wang、Prime 等。
在70 年代後期到進入90 年代,微處理器或者個人計算機浪潮衝刷了IT 產業,領先者為Microsoft、Intel、IBM 和Apple 等公司。從90 年代中期開始,我們進入了網絡化浪潮。如今,全球在線的人數已經超過了10 億,而且有更多幾倍的人在使用移動電話。這一浪潮由Cisco、Google、Oracle、EMC、Salesforce.com 等公司領導。有些公司更善於駕馭這些連續的浪潮,而另一些公司則被落下了。
那麽,下一波浪潮會是什麽?它還沒有被正式命名。我們更願意稱它為雲計算和大數據浪潮。其實,不管它被叫做什麽,它都將比在它之前發生過的浪潮更大、觸及麵更廣。非常重要的是:新的浪潮正在迅速地朝我們湧來,並將觸及IT的各個方麵。
數字信息每天在無線電波、電話電路和計算機電纜中川流不息。我們周圍到處都是數字信息。我們在高清電視機上看數字信息,在互聯網上聽數字信息,我們自己也在不斷製造新的數字信息。每次用數碼相機拍照後,都產生了新的數字信息,通過電子郵件把照片發給朋友和家人,又製造了更多的數字信息。
不過,我們不知道的是,這些數字比特總共有多少?數字比特增加的速度有多快?比特激增意味著什麽?
人們製造、獲取和複製的所有1 和0 組成了數字世界。人們通過拍照片和共享音樂製造了數字比特,而公司則組織和管理對這些數字信息的訪問和存儲並為其提供安全保障。
三種主要的模擬數字轉換為這種增長提供了動力:用膠片拍攝影像轉換為數字影像拍攝、模擬語音轉換為數字語音,以及模擬電視轉換為數字電視。從數碼相機、可視電話、醫用掃描儀到保安攝像頭,全世界有10 億多台設備在拍攝影像,這些影像成為數字宇宙中最大的組成部分。這些影像通過互聯網、企業內部網在PC 和服務器及數據中心中複製,通過數字電視廣播和數字投影銀幕播放。
2007 年是人類創造的信息量有史以來第一次在理論上超過可用存儲空間總量的一年。然而,這沒有什麽好怕的,調查結果強調現在人類應該也必須合理調整數據存儲和管理。有很多數據是沒有必要複製和存儲下來的,而且存儲那些數據的成本也很高。
IDC和EMC都認為數字信息量的增長是因為網絡應用的不斷增長,以及人類開始將物理數據轉化為數字格式的數據所致。被存儲下來的數據從本質上說已經發生了重大的變化,數字化數據總量增長得很快。大約在30 年前,通信行業的數據大部分是結構化數據。如今,多媒體技術的普及導致非結構化數據如音樂和視頻等的數量出現爆炸式增長。雖然30 多年前的一個普通企業用戶文件也許表現為數據庫中的一排數字,但是如今的類似普通文件可能包含許多數字化圖片和文件的影像或者數字化錄音內容。現在,95%以上的數字信息都是非結構化數據。在各組織和企業中,非結構化數據占到了所有信息數據總量的80%以上。
“可視化”是引起數字世界急速膨脹的主要原因之一。由於數碼相機、數碼監控攝像機和數字電視內容的加速增多,以及信息的大量複製趨勢,使得數字宇宙的容量和膨脹速度超過此前估計。
IDC 的數字世界白皮書指出,個人日常生活的“數字足跡”也大大刺激了數字宇宙的快速增長。通過互聯網及社交網絡、電子郵件、移動電話、數碼相機和在線信用卡交易等多種方式,每個人日常生活都在被數字化。數字世界的規模從2006 年到2011 年這五年間膨脹了10倍!
大數據快速增長的部分原因歸功於智能設備的普及,比如傳感器和醫療設備,以及智能建築,比如大樓和橋梁。此外,非結構化信息,比如文件、電子郵件和視頻,將占到未來10 年新生數據的90%。非結構化信息的增長部分應歸功於高寬帶數據的增長,比如視頻。
用戶手中的手機和移動設備是數據量爆炸的一個重要原因,目前,全球用戶擁有50 億台手機,其中20 億台為智能電話,這相當於80 年代20 億台IBM 的大型機在消費者手裏。
三、大數據技術架構
各種各樣的大數據應用需求迫切需要新的工具和技術來存儲、管理和實現商業價值。新的工具、流程和方法支撐起了新的技術架構,使得企業能夠建立、操作和管理這些超大規模的數據集和儲藏數據的存儲環境。在全新的數據增長速度條件下,一切都必須重新評估。這項工作必須從全盤入手,並考慮大數據分析。
要容納數據本身,IT 基礎架構必須能夠以經濟的方式存儲比以往更大量、類型更多的數據。此外,還必須能適應數據速度,即數據變化的速度。數量如此大的數據難以在當今的網絡連接條件下快速來回移動。大數據基礎架構必須分布計算能力,以便能在接近用戶的位置進行數據分析,減少跨越網絡所引起的延遲。隨著企業逐漸認識到必須在數據駐留的位置進行分析,分布這類計算能力,以便為分析工具提供實時響應將帶來挑戰。考慮到數據速度和數據量,來回移動數據進行處理是不現實的。相反,計算和分析工具可能會移到數據附近。而且,雲計算模式對大數據的成功至關重要。雲模型在從大數據中提取商業價值的同時也在馴服它。這種交付模型能為企業提供一種靈活的選擇,以實現大數據分析所需的效率、可擴展性、數據便攜性和經濟性。僅僅存儲和提供數據還不夠,必須以新方式合成、分析和關聯數據,才能提供商業價值。部分大數據方法要求處理未經建模的數據,因此,可以用來跨毫不相幹的數據源比較不同類型的數據和進行模式匹配。這使得大數據分析能以新視角挖掘企業傳統數據,並帶來傳統上未曾分析過的數據洞察力。基於上述考慮,我們構建了適合大數據的四層堆棧式技術架構。
1.基礎層
第一層作為整個大數據技術架構基礎的最底層,也是基礎層。要實現大數據規模的應用,企業需要一個高度自動化的、可橫向擴展的存儲和計算平台。這個基礎設施需要從以前的存儲孤島發展為具有共享能力的高容量存儲池。容量、性能和吞吐量必須可以線性擴展。
雲模型鼓勵訪問數據並提供彈性資源池來應對大規模問題,解決了如何存儲大量數據,以及如何積聚所需的計算資源來操作數據的問題。在雲中,數據跨多個節點調配和分布,使得數據更接近需要它的用戶,從而縮短響應時間和提高生產率。
2.管理層
要支持在多源數據上做深層次的分析,大數據技術架構中需要一個管理平台,使結構化和非結構化數據管理為一體,具備實時傳送和查詢、計算功能。本層既包括數據的存儲和管理,也涉及數據的計算。並行化和分布式是大數據管理平台所必須考慮的要素。
3.分析層
大數據應用需要大數據分析。分析層提供基於統計學的數據挖掘和機器學習算法,用於分析和解釋數據集,幫助企業獲得對數據價值深入的領悟。可擴展性強、使用靈活的大數據分析平台更可成為數據科學家的利器,起到事半功倍的效果。
4.應用層
大數據的價值體現在幫助企業進行決策和為終端用戶提供服務的應用。不同的新型商業需求驅動了大數據的應用。反之,大數據應用為企業提供的競爭優勢使得企業更加重視大數據的價值。新型大數據應用對大數據技術不斷提出新的要求,大數據技術也因此在不斷的發展變化中日趨成熟。
四、大數據的特點
大數據(BigData)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關係數據庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯係到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。大數據的4個“V” 即4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。換句話說其特點有四個層麵:
1)數據體量巨大。從TB級別,躍升到PB級別;
2)數據類型繁多。前文提到的網絡日誌、視頻、圖片、地理位置信息等等。
3)價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
4)處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。
業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。而物聯網、雲計算、移動互聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
五、大數據技術
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘電網、分布式文件係統、分布式數據庫、雲計算平台、互聯網和可擴展的存儲係統。大數據技術分為整體技術和關鍵技術兩個方麵。
(1)整體技術
數據采集:ETL工具負責將分布的、異構數據源中的數據如關係數據、平麵數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取:關係數據庫、NOSQL、SQL等。
基礎架構:雲存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,Natural Language Understanding),也稱為計算語言學(Computational Linguistics)。一方麵它是語言信息處理的一個分支,另一方麵它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘:分類(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、複雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測:預測模型、機器學習、建模仿真。
結果呈現:雲計算、標簽雲、關係圖等。
(2)關鍵技術
大數據處理關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。
大數據采集技術:數據是指通過RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。重點要突破分布式高速高可靠數據爬取或采集、高速數據全映像等大數據收集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評估模型,開發數據質量技術。
大數據采集一般分為大數據智能感知層:主要包括數據傳感體係、網絡通信體係、傳感適配體係、智能識別體係及軟硬件資源接入係統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。必須著重攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。基礎支撐層:提供大數據服務平台所需的虛擬服務器,結構化、半結構化及非結構化數據的數據庫及物聯網絡資源等基礎支撐環境。重點攻克分布式虛擬存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化接口技術,大數據的網絡傳輸與壓縮技術,大數據隱私保護技術等。
大數據預處理技術:主要完成對已接收數據的辨析、抽取、清洗等操作。
1)抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助我們將這些複雜的數據轉化為單一的或者便於處理的構型,以達到快速分析處理的目的。
2)清洗:對於大數據,並不全是有價值的,有些數據並不是我們所關心的內容,而另一些數據則是完全錯誤的幹擾項,因此要對數據通過過濾“去噪”從而提取出有效數據。
大數據存儲及管理技術:大數據存儲與管理要用存儲器把采集到的數據存儲起來,建立相應的數據庫,並進行管理和調用。重點解決複雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件係統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗餘及高效低成本的大數據存儲技術;突破分布式非關係型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、複製等技術;開發大數據可視化技術。
開發新型數據庫技術: 數據庫分為關係型數據庫、非關係型數據庫以及數據庫緩存係統。其中,非關係型數據庫主要指的是NoSQL數據庫,分為:鍵值數據庫、列存數據庫、圖存數據庫以及文檔數據庫等類型。關係型數據庫包含了傳統關係數據庫係統以及NewSQL數據庫。開發大數據安全技術。改進數據銷毀、透明加解密、分布式訪問控製、數據審計等技術;突破隱私保護和推理控製、數據真偽識別和取證、數據持有完整性驗證等技術。
大數據分析及挖掘技術:
大數據分析技術。改進已有數據挖掘和機器學習技術;開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等麵向領域的大數據挖掘技術。
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘涉及的技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關係或依賴模型發現、異常和趨勢發現等等;根據挖掘對象可分為關係數據庫、麵向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環球網Web;根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網絡方法和數據庫方法。機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(係統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網絡方法中,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有麵向屬性的歸納方法。
從挖掘任務和挖掘方法的角度,著重突破:
1.可視化分析。 數據可視化無論對於普通用戶或是數據分析專家,都是最基本的功能。數據圖像化可以讓數據自己說話,讓用戶直觀的感受到結果。
2.數據挖掘算法。圖像化是將機器語言翻譯給人看,而數據挖掘就是機器的母語。分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數據,挖掘價值。這些算法一定要能夠應付大數據的量,同時還具有很高的處理速度。
3.預測性分析。預測性分析可以讓分析師根據圖像化分析和數據挖掘的結果做出一些前瞻性判斷。
4.語義引擎。語義引擎需要設計到有足夠的人工智能以足以從數據中主動地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答係統等。
5.數據質量和數據管理。數據質量與管理是管理的最佳實踐,透過標準化流程和機器對數據進行處理可以確保獲得一個預設質量的分析結果。
大數據展現與應用技術:大數據技術能夠將隱藏於海量數據中的信息和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。
在我國,大數據將重點應用於以下三大領域:商業智能、政府決策、公共服務。例如:商業智能技術,政府決策技術,電信數據信息處理與挖掘技術,電網數據信息處理與挖掘技術,氣象信息分析技術,環境監測技術,警務雲應用係統(道路監控、視頻監控、網絡監控、智能交通、反電信詐騙、指揮調度等公安信息係統),大規模基因序列分析比對技術,Web信息挖掘技術,多媒體數據並行化處理技術,影視製作渲染技術,其他各種行業的雲計算和海量數據處理應用技術等。
六、大數據處理分析的三種典型工具介紹
大數據分析是研究大量的數據的過程中尋找模式,相關性和其他有用的信息,可以幫助企業更好地適應變化,並做出更明智的決策。
1.Hadoop
Hadoop 是一個能夠對大量數據進行分布式處理的軟件框架。但是Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務器,因此它的成本比較低,任何人都可以使用。其特點是:
Hadoop是一個能夠讓用戶輕鬆架構和使用的分布式計算平台。用戶可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:
(1)高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
(2)高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
(3)高效性。Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。
(4)容錯性。Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。
Hadoop帶有用 Java 語言編寫的框架,因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。
2.HPCC
HPCC,High Performance Computing and Communications (高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰項目:高性能計算與通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算係統及相關軟件,以支持太位級網絡傳輸性能,開發千兆比特網絡技術,擴展研究和教育機構及網絡連接能力。該項目主要由五部分組成:
(1)高性能計算機係統(HPCS),內容包括今後幾代計算機係統的研究、係統設計工具、先進的典型係統及原有係統的評價等;
(2)先進軟件技術與算法(ASTA),內容有巨大挑戰問題的軟件支撐、新算法設計、軟件分支與工具、計算計算及高性能計算研究中心等;
(3)國家科研與教育網格(NREN),內容有中接站及10億位級傳輸的研究與開發;
(4)基本研究與人類資源(BRHR),內容有基礎研究、培訓、教育及課程教材,被設計通過獎勵調查者-開始的,長期的調查在可升級的高性能計算中來增加創新意識流,通過提高教育和高性能的計算訓練和通信來加大熟練的和訓練有素的人員的聯營,和來提供必需的基礎架構來支持這些調查和研究活動;
(5)信息基礎結構技術和應用(IITA ),目的在於保證美國在先進信息技術開發方麵的領先地位。
3.Storm
Storm是自由的開源軟件,一個分布式的、容錯的實時計算係統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿裏巴巴、樂元素、Admaster等等。
Storm有許多應用領域:實時分析、在線機器學習、不停頓的計算、分布式RPC(遠過程調用協議,一種通過網絡從遠程計算機程序上請求服務)、
ETL(Extraction-Transformation-Loading的縮寫,即數據抽取、轉換和加載)等等。Storm的處理速度驚人:經測試,每個節點每秒鍾可以處理100萬個數據元組。Storm是可擴展、容錯,很容易設置和操作。
七、大數據的2個案例
(1)IBM戰略IBM的大數據戰略以其在2012年5月發布智慧分析洞察“3A5步”動態路線圖作為基礎。所謂“3A5步”,指的是在“掌握信息”(Align)的基礎上“獲取洞察”(Anticipate),進而采取行動(Act),優化決策策劃能夠救業務績效。除此之外,還需要不斷地“學習”(Learn)從每一次業務結果中獲得反饋,改善基於信息的決策流程,從而實現“轉型”(Transform)。
基於“3A5步”動態路線圖,IBM提出了“大數據平台”架構。該平台的四大核心能力包括Hadoop係統、流計算(Stream Computing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。如下圖所示。
在大數據處理領域,IBM於2012年10月推出了IBM Pure Systems專家集成係統的新成員——IBM Pure Data係統。這是IBM在數據處理領域發布的首個集成係統產品係列。Pure Data係統具體包含三款產品,分別為Pure Data System for Transactions、Pure Data System for Analytics和Pure Data System for Operational Analytics,可分別應用於OLTP(聯機事務處理)、OLAP(聯機分析處理)和大數據分析操作。與此前發布的IBM Pure Systems係列產品一樣,IBM Pure Data係統提供內置的專業知識、源於設計的集成,以及在其整個生命周期中的簡化體驗。
(2)大數據時代的熱潮,微軟公司生產了一款數據驅動的軟件,主要是為工程建設節約資源提高效率。在這個過程裏可以為世界節約40%的能源。拋開這個軟件的前景不看,從微軟團隊致力於研究開始,可以看他們的目標不僅是為了節約了能源,更加關注智能化運營。通過跟蹤取暖器、空調、風扇以及燈光等積累下來的超大量數據,捕捉如何杜絕能源浪費。“給我提供一些數據,我就能做一些改變。如果給我提供所有數據,我就能拯救世界。”微軟史密斯這樣說。而智能建築正是他的團隊專注的事情。
八、大數據未來走向
大數據正在以不可阻攔的磅礴氣勢,與當代同樣具有革命意義的最新科技進步(如納米技術、生物工程、全球化等)一起,揭開人類新世紀的序幕。
對於地球上每一個普通居民而言,大數據有什麽應用價值呢? 隻要看看周圍正在變化的一切,你就可以知道,大數據對每個人的重要性不亞於人類初期對火的使用。大數據讓人類對一切事物的認識回歸本源;大數據通過影響經濟生活、政治博弈、社會管理、文化教育科研、醫療保健休閑等等行業,與每個人產生密切的聯係。
大數據技術離你我都並不遙遠,它已經來到我們身邊,滲透進入我們每個人的日常生活消費之中,時時刻刻,事事處處,我們無法逃遁,因為它無微不至:它提供了光怪陸離的全媒體,難以琢磨的雲計算,無法抵禦的仿真環境。通過大數據技術,人們能夠在醫院之外得悉自己的健康情況;而通過收集普通家庭的能耗數據,大數據技術給出人們切實可用的節能提醒;通過對城市交通的數據收集處理,大數據技術能夠實現城市交通的優化。
2013年,大數據應用帶來了令人矚目的成績。作為新的重要資源,世界各國都在加快大數據的戰略布局,製定戰略規劃。美國奧巴馬政府發起了《大數據研究和發展倡議》,斥資2億美元用於大數據研究;英國政府預計在大數據和節能計算研究上投資1.89億英鎊;法國政府宣布投入1150萬歐元,用於7個大數據市場研發項目;日本在新一輪IT振興計劃中,將發展大數據作為國家戰略層麵提出,重點關注大數據應用技術,如社會化媒體、新醫療、交通擁堵治理等公共領域的應用。
中國的“基礎研究大數據服務平台應用示範項目”正在啟動,有關部門正在積極研究相關發展目標、發展原則、關鍵技術等方麵的頂層設計。目前我國大數據產業還處於發展初期,市場規模仍然比較小,2012年僅為4.5億元,而且主導廠商仍以外企居多。2016年我國大數據應用的整體市場規模將突破百億元量級,未來將形成全球最大的大數據產業帶。然而,相對於發展前景的樂觀預測,我國發展大數據產業麵臨的現實挑戰更值得認真分析和對待。
總而言之,大數據技術的發展有可能解開宇宙起源的奧秘。因為,計算機技術將一切信息無論是有與無、正與負,都歸結為0與1,原來一切存在都在於數的排列組合,在於大數據。
(2014-6-6)