我記得好像是多哥跟另一個號稱“數據大師”交流時說的。大家一直在用規範和不規範的數據在窺測 insights。
如果說“大數據”作為一個新的概念,那就完全是在忽悠;是經理們開拓就業市場的把戲。
對於因特網收集的非“規範”訪問記錄,這個要怪老印在這個領域的無知胡鬧有關。老印缺乏嚴謹的工程頭腦,最初沒有把訪問記錄的收集和儲存規範化,結果大家隻好將錯就錯。就此,因特網收集的訪問記錄,就成了所謂“大數據”一個重要的“非規範”數據組成部分。
如此而已。。。。。。
記得壇子裏有人說過,“大數據”早已存在,一直在用。不存在“終有一天要上”的說法。
所有跟帖:
• 我說的是終於有一天要上,指的是係統,比如說現在用unix甚至window下用大一點的機器都可以處理比較大的數據,但有很多缺陷, -wolikeyou- ♀ (172 bytes) () 03/31/2015 postreply 09:47:59
• 你又被忽悠了。所謂 computation 的方式不同,其實就是基於硬件 -拉兄弟一把- ♂ (1088 bytes) () 03/31/2015 postreply 10:13:25
• 謝謝分享!我不是IT人士,但據我了解,在用SAS從大數據裏(TB級別的)提取符合條件的數據,常常要耗上幾個小時,更別提model -wolikeyou- ♀ (306 bytes) () 03/31/2015 postreply 11:30:17
• SAS,以及 IBM 的類似產品,還有 SAP,上層表麵的東西搞得太多了。這是個主要原因。 -拉兄弟一把- ♂ (1506 bytes) () 03/31/2015 postreply 12:42:36
• 嗬嗬,我們老板要我搞hadoop,剛開始我就覺得不樂觀,結果搞了3年,也沒有搞成,現在還是 用PC機處理數據 -wolikeyou- ♀ (1532 bytes) () 03/31/2015 postreply 19:53:44