且不說這些東西是否能使這些產品得到廣泛應用,速度慢,還牽涉到一個係統設計的問題,即 qualified data input/capture、(subject) data marts 、以及其它類似有關的東西如何設計及應用並係統化。要是模型 runs against 相對集中的 data warehouse 身上,query 相關subjects 就肯定要花一大把時間。另外,還要加上另一大把時間來認識這些上層表麵來的東西,再行 query data。
我聽說從前在 IBM DB2 上搞模型,都是直接用 C 寫的,相對運行就較快。現在這些東西,上層花哩胡稍的東西太多。要把這些花頭取消,看來是不可能了,靠這類東西混飯吃的人太多,真正專家不是當了領導混退休,就是進了天堂混上帝。唯一可以改進速度的手段,就是我說的對於係統設計方麵的關注。比如很多數據分類的邏輯運行,都可以分散在單獨的 data mart 之上定時運行。一旦運行模型發布報告,就可以直接從各個需要的 data marts 上提取早已分類好的數據。
“大數據”運行,不僅單靠一個產品,比如 SAP 或 SAS, 更重要的,是如何設計數據庫係統,分散運行力量和時間。這是個軟件工程問題,要花大錢雇傭真正的大牛才行。問題是,大牛都在玩自家飛機或混退休。這樣一來,老印就來撐市麵了。
SAS,以及 IBM 的類似產品,還有 SAP,上層表麵的東西搞得太多了。這是個主要原因。
本文內容已被 [ 拉兄弟一把 ] 在 2015-03-31 14:02:37 編輯過。如有問題,請報告版主或論壇管理刪除.
回答: 謝謝分享!我不是IT人士,但據我了解,在用SAS從大數據裏(TB級別的)提取符合條件的數據,常常要耗上幾個小時,更別提model
由 wolikeyou
於 2015-03-31 11:30:17
所有跟帖:
• 嗬嗬,我們老板要我搞hadoop,剛開始我就覺得不樂觀,結果搞了3年,也沒有搞成,現在還是 用PC機處理數據 -wolikeyou- ♀ (1532 bytes) () 03/31/2015 postreply 19:53:44