有了 data warehouse 儲存的這些曆史性的原始數據,就可以據此預測某類事物的今後發展方向或意向。這個東西人們是一直在做的。不是什麽大數據,就靈魂突然開竅。比如聯邦調查局對犯罪現場罪犯的 profile 描述,就是根據曆史上已知的同類罪犯的性格特征,進行目前罪犯特征的推測。也就是根據目前犯罪現場的,和已知罪犯所共有的東西,進行推測。曆史上已知的,就是曆代罪犯或反革命分子的犯罪記錄,數據庫 或“大數據。” 還有個常舉的例子就是收集你所有的物品購買記錄,推測你的收入及購物習性,進而對你的個性,進行估摸,等等,等等。
這些都是我這裏對大數據這類提法的根本性東西,一種比較通俗的說法;專業上的說辭,我就不多講了。
所以現在鼓吹所謂的大數據,都是文人墨客發現可以謀生的一條新途徑,對專家來講,很好笑。但這樣一來,也的確能養活一大批人。這一大批人,靠的就是現成的軟件,在那裏 drag and drop,妄想就這樣,就是在做 predictive analytics 之上的 Business Intelligence (BI)了。這種現象已引起好多生產部門有識之士的厭惡。他們把這些行為稱之為:garbage in,garbage out。什麽意思呢?就是真正能得出比較正確的推測結果,她的原始數據,要通過一些特別設計的數理或統計模型;而且輸入模型的原始數據,也要根據統計原理或理論,進行選擇和整理。簡單地說,那是一個統計學上的 sampling 的過程。沒有這些過程,光是靠大型數據庫的連接,輸入的數據,就是 garbage。然後就是一係列的 drag and drop 加 button clicking,那是搞不出 qualified 的結果的。所以沒有 sampling 的過程,那就是 garbage 的數據輸入,出來的自然就是 garbage 的結果了。
所以光靠某些現成的商業軟件所附普遍意義上的模型,連上背後的數據庫,或“大數據”庫,再用 drag and drop 或 button clicking 來搞所謂的 BI,基本都是糊弄人的事兒。解決不了特別的實際問題。
以上 “謬論,” 敬請專家指正。