這個全是不學無術的人在那兒嘩眾取寵，給自己尋找生存之處。所謂的

來源: 多哥於 2014-07-22 08:02:46 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (2515 bytes)

本帖於 2014-07-22 08:30:00 時間, 由普通用戶多哥編輯

回答: 世界日報: 全球“大數據時代”來臨中國留學生搶讀由 JustAsked 於 2014-07-22 06:15:13

大數據，自有了數據庫之後就存在了。也就是人們經常在此之上談論的 data marts 以及 data warehouse。

有了 data warehouse 儲存的這些曆史性的原始數據，就可以據此預測某類事物的今後發展方向或意向。這個東西人們是一直在做的。不是什麽大數據，就靈魂突然開竅。比如聯邦調查局對犯罪現場罪犯的 profile 描述，就是根據曆史上已知的同類罪犯的性格特征，進行目前罪犯特征的推測。也就是根據目前犯罪現場的，和已知罪犯所共有的東西，進行推測。曆史上已知的，就是曆代罪犯或反革命分子的犯罪記錄，數據庫或“大數據。” 還有個常舉的例子就是收集你所有的物品購買記錄，推測你的收入及購物習性，進而對你的個性，進行估摸，等等，等等。

這些都是我這裏對大數據這類提法的根本性東西，一種比較通俗的說法；專業上的說辭，我就不多講了。

所以現在鼓吹所謂的大數據，都是文人墨客發現可以謀生的一條新途徑，對專家來講，很好笑。但這樣一來，也的確能養活一大批人。這一大批人，靠的就是現成的軟件，在那裏 drag and drop，妄想就這樣，就是在做 predictive analytics 之上的 Business Intelligence （BI）了。這種現象已引起好多生產部門有識之士的厭惡。他們把這些行為稱之為：garbage in，garbage out。什麽意思呢？就是真正能得出比較正確的推測結果，她的原始數據，要通過一些特別設計的數理或統計模型；而且輸入模型的原始數據，也要根據統計原理或理論，進行選擇和整理。簡單地說，那是一個統計學上的 sampling 的過程。沒有這些過程，光是靠大型數據庫的連接，輸入的數據，就是 garbage。然後就是一係列的 drag and drop 加 button clicking，那是搞不出 qualified 的結果的。所以沒有 sampling 的過程，那就是 garbage 的數據輸入，出來的自然就是 garbage 的結果了。

所以光靠某些現成的商業軟件所附普遍意義上的模型，連上背後的數據庫，或“大數據”庫，再用 drag and drop 或 button clicking 來搞所謂的 BI，基本都是糊弄人的事兒。解決不了特別的實際問題。

以上 “謬論，” 敬請專家指正。