這個全是不學無術的人在那兒嘩眾取寵,給自己尋找生存之處。所謂的

本文內容已被 [ 多哥 ] 在 2014-07-22 08:30:00 編輯過。如有問題,請報告版主或論壇管理刪除.

大數據,自有了數據庫之後就存在了。也就是人們經常在此之上談論的 data marts 以及 data warehouse。

有了 data warehouse 儲存的這些曆史性的原始數據,就可以據此預測某類事物的今後發展方向或意向。這個東西人們是一直在做的。不是什麽大數據,就靈魂突然開竅。比如聯邦調查局對犯罪現場罪犯的 profile 描述,就是根據曆史上已知的同類罪犯的性格特征,進行目前罪犯特征的推測。也就是根據目前犯罪現場的,和已知罪犯所共有的東西,進行推測。曆史上已知的,就是曆代罪犯或反革命分子的犯罪記錄,數據庫 或“大數據。” 還有個常舉的例子就是收集你所有的物品購買記錄,推測你的收入及購物習性,進而對你的個性,進行估摸,等等,等等。

這些都是我這裏對大數據這類提法的根本性東西,一種比較通俗的說法;專業上的說辭,我就不多講了。

所以現在鼓吹所謂的大數據,都是文人墨客發現可以謀生的一條新途徑,對專家來講,很好笑。但這樣一來,也的確能養活一大批人。這一大批人,靠的就是現成的軟件,在那裏 drag and drop,妄想就這樣,就是在做 predictive analytics 之上的 Business Intelligence (BI)了。這種現象已引起好多生產部門有識之士的厭惡。他們把這些行為稱之為:garbage in,garbage out。什麽意思呢?就是真正能得出比較正確的推測結果,她的原始數據,要通過一些特別設計的數理或統計模型;而且輸入模型的原始數據,也要根據統計原理或理論,進行選擇和整理。簡單地說,那是一個統計學上的 sampling 的過程。沒有這些過程,光是靠大型數據庫的連接,輸入的數據,就是 garbage。然後就是一係列的 drag and drop 加 button clicking,那是搞不出 qualified 的結果的。所以沒有 sampling 的過程,那就是 garbage 的數據輸入,出來的自然就是 garbage 的結果了。

所以光靠某些現成的商業軟件所附普遍意義上的模型,連上背後的數據庫,或“大數據”庫,再用 drag and drop 或 button clicking 來搞所謂的 BI,基本都是糊弄人的事兒。解決不了特別的實際問題。

以上 “謬論,” 敬請專家指正。

所有跟帖: 

不是這麽簡單,更不是自封專家就可以獲得權威:) -數據分析- 給 數據分析 發送悄悄話 (2022 bytes) () 07/22/2014 postreply 08:29:32

此文說的大數據,不是常規數據庫,不是人們經常談論的 data marts 以及 data warehouse。 -美國老土- 給 美國老土 發送悄悄話 美國老土 的博客首頁 (965 bytes) () 07/22/2014 postreply 08:35:07

Redeveloped, following Google white papers -數據分析- 給 數據分析 發送悄悄話 (233 bytes) () 07/22/2014 postreply 08:40:13

兩位補充的,非常 educational ! -多哥- 給 多哥 發送悄悄話 多哥 的博客首頁 (0 bytes) () 07/22/2014 postreply 08:42:22

哪裏哪裏,都是胡說之。 多哥才是真知灼見。 Enjoy the day! -美國老土- 給 美國老土 發送悄悄話 美國老土 的博客首頁 (0 bytes) () 07/22/2014 postreply 08:44:41

哪裏哪裏,隨便說說,供大家批判提高啊。 -多哥- 給 多哥 發送悄悄話 多哥 的博客首頁 (0 bytes) () 07/22/2014 postreply 13:50:20

一個炤頭吃飯,多多包涵!:) -數據分析- 給 數據分析 發送悄悄話 (42 bytes) () 07/22/2014 postreply 08:50:00

我看幾位好像有大陰謀 -怪哉- 給 怪哉 發送悄悄話 怪哉 的博客首頁 (3 bytes) () 07/22/2014 postreply 08:56:13

換湯不換藥。。。我的理解,把草帽摘了換個禮帽 -小謀- 給 小謀 發送悄悄話 小謀 的博客首頁 (0 bytes) () 07/22/2014 postreply 08:52:27

most agree with you. -xiaoxing- 給 xiaoxing 發送悄悄話 xiaoxing 的博客首頁 (134 bytes) () 07/22/2014 postreply 11:18:04

modeling 的方法當然是與時俱進,和過去搞到現在,原則上都是一回事。 -多哥- 給 多哥 發送悄悄話 多哥 的博客首頁 (199 bytes) () 07/22/2014 postreply 13:57:23

請您先登陸,再發跟帖!