SAS,以及 IBM 的類似產品,還有 SAP,上層表麵的東西搞得太多了。這是個主要原因。

本文內容已被 [ 拉兄弟一把 ] 在 2015-03-31 14:02:37 編輯過。如有問題,請報告版主或論壇管理刪除.

且不說這些東西是否能使這些產品得到廣泛應用,速度慢,還牽涉到一個係統設計的問題,即 qualified data input/capture、(subject) data marts 、以及其它類似有關的東西如何設計及應用並係統化。要是模型 runs against 相對集中的 data warehouse 身上,query 相關subjects 就肯定要花一大把時間。另外,還要加上另一大把時間來認識這些上層表麵來的東西,再行 query data。

我聽說從前在 IBM DB2 上搞模型,都是直接用 C 寫的,相對運行就較快。現在這些東西,上層花哩胡稍的東西太多。要把這些花頭取消,看來是不可能了,靠這類東西混飯吃的人太多,真正專家不是當了領導混退休,就是進了天堂混上帝。唯一可以改進速度的手段,就是我說的對於係統設計方麵的關注。比如很多數據分類的邏輯運行,都可以分散在單獨的 data mart 之上定時運行。一旦運行模型發布報告,就可以直接從各個需要的 data marts 上提取早已分類好的數據。

“大數據”運行,不僅單靠一個產品,比如 SAP 或 SAS, 更重要的,是如何設計數據庫係統,分散運行力量和時間。這是個軟件工程問題,要花大錢雇傭真正的大牛才行。問題是,大牛都在玩自家飛機或混退休。這樣一來,老印就來撐市麵了。





請您先登陸,再發跟帖!