我記得好像是多哥跟另一個號稱“數據大師”交流時說的。大家一直在用規範和不規範的數據在窺測 insights。
如果說“大數據”作為一個新的概念,那就完全是在忽悠;是經理們開拓就業市場的把戲。
對於因特網收集的非“規範”訪問記錄,這個要怪老印在這個領域的無知胡鬧有關。老印缺乏嚴謹的工程頭腦,最初沒有把訪問記錄的收集和儲存規範化,結果大家隻好將錯就錯。就此,因特網收集的訪問記錄,就成了所謂“大數據”一個重要的“非規範”數據組成部分。
如此而已。。。。。。
記得壇子裏有人說過,“大數據”早已存在,一直在用。不存在“終有一天要上”的說法。
所有跟帖:
•
我說的是終於有一天要上,指的是係統,比如說現在用unix甚至window下用大一點的機器都可以處理比較大的數據,但有很多缺陷,
-wolikeyou-
♀
(172 bytes)
()
03/31/2015 postreply
09:47:59
•
你又被忽悠了。所謂 computation 的方式不同,其實就是基於硬件
-拉兄弟一把-
♂
(1088 bytes)
()
03/31/2015 postreply
10:13:25
•
謝謝分享!我不是IT人士,但據我了解,在用SAS從大數據裏(TB級別的)提取符合條件的數據,常常要耗上幾個小時,更別提model
-wolikeyou-
♀
(306 bytes)
()
03/31/2015 postreply
11:30:17
•
SAS,以及 IBM 的類似產品,還有 SAP,上層表麵的東西搞得太多了。這是個主要原因。
-拉兄弟一把-
♂
(1506 bytes)
()
03/31/2015 postreply
12:42:36
•
嗬嗬,我們老板要我搞hadoop,剛開始我就覺得不樂觀,結果搞了3年,也沒有搞成,現在還是 用PC機處理數據
-wolikeyou-
♀
(1532 bytes)
()
03/31/2015 postreply
19:53:44