似乎很多人對數據分析感興趣。那麽就多說兩句。數據分析
望文生義,一是數據,二是分析。很多初始的數據是需要做一定的處理才能進一步分析。比如數據分析軟件包都帶的SQL就是一個處理數據的工具。還有一些軟件包內建的處理數據的函數。所以有計算機背景的人會很快掌握的。常見的數據分析軟件有SAS, SPSS, R 等等。R的特點是開源的和免費。它需要把所有數據導入內存才能進行下一步分析。當你的數據有超過百萬條記錄,R就跑不動了。另外R中的分析模塊都是專業人士開發,但無經過認可。這裏的分析是指統計分析。統計分析決不是僅是計算平均數或百分比。這是數據分析所不能繞過的坎。就算所有的統計方法你都掌握了,是否你的分析水平就過關了?答案是NO。統計領域有句諺語叫"Gabage in, garbage out."。比如芝加哥冰激淩的消耗量與犯罪率的關係。這些數據都是真實的。你將這組數據導入任何數據分析軟件都不會報錯,而且結果高度正相關。實際上分析軟件和結果都沒錯。與犯罪率相關也許是季節(夏季),夏季的冰激淩的消耗量相對高。但冰激淩的消耗量不是導致犯罪率的變量。在一較複雜的數據分析中,如果沒有較深度背景知識,很容易犯上麵的錯誤。再一個例子。交通事故與性別的關係。交通事故中男性的
概率顯著高於女性。如果這個數據中,女性占80%以上,那麽這個結論可能要推翻了或者倆者都不顯著,無區別。
假如數據沒有任何問題。那麽選幾十個統計方法中的那一個做分析是另一個要麵對的問題。當然這與你的數據本身高度相關。如國你想進入這個領域,找一本acdemic雜誌或report,看看其中的統計結果你能看懂多少。比如在health care system,哪些是導致high cost因素, 怎樣在不降低治療質量,去減少住院時間等等。