Stata是一套提供其使用者數據分析、數據管理以及繪製專業圖表的完整及整合性統計軟件,與 SPSS、SAS 並稱為當今三大統計軟件。Stata與其他兩款軟件相比體積小巧、簡單易懂且功能強大。一推出就受到了初學者和高級用戶的普遍歡迎。在全球範圍內被廣泛應用於企業和學術機構中。那麽如何快速入門並成為Stata高手呢?今天我們就來總結一下STATA常用的命令,希望對大家有所幫助。
1、input: 輸入數據
2、by: 按照某一變量的取值來進行分析
3、weight: 加權或者頻數
4、if: 用條件語句指定條件
5、in:指定觀察值的範圍,對在範圍內的觀察值做分析處理
6、for: 用來指定變量
7、函數:
abs(x) 絕對值
exp(x) 指數函數
log(x) 自然對數
log10(x) 常用對數
sqrt(x) 平方根
uniform(x) 生成(0,1)內均勻分布的偽隨機數
length(x) 計算長度
substr(s,n1,n2) 獲得從S的n1個字符開始的n2個字符組成的字符串
real(x) 將字符串s轉換為數值函數
trim(x) 去除字符串前麵和後麵的空格
int(x) 去掉x的小數部分,得到整數
sum(X) 求和
max(x) min(x) 最大值最小值
_n 當前觀察值的位置
_N 觀察值的總個數
8、ren: 重命名
9、des:描述數據庫的基本情況
10、label: 為變量添加一些說明,以示說明
11、sort: 按照某一變量從小到大排序
gsort +/-:按照某一變量從大到小或者從小到大排序
sort var1 var2:按照var1大小排序,相同的var1按照var2大小排序
12、drop:刪除變量或者記錄
drop _all //清空數據庫
13、keep: 與drop對應,保存變量
14、append:縱向連接數據庫
15、merge:橫向連接數據庫
16、gen: 生成新變量
17、replace:更改變量值
renvars: 批量修改變量名
18、set obs: 增加空記錄
19、format: 改變數據格式
20、l: list 將結果列出
21、su: 對分析數據進行描述,均值標準差等,與des不同,des是描述數據庫變量個數,格式等
22、centile: 百分位數計算
23、tab:頻數表達
24、ci: 計算可信區間
25、直方圖:
b1/t1/l1/r1("") 給各個坐標軸加標題
b2/t2/l2/r2("") 給各個坐標軸加副標題
title 給圖加總標題
條圖:gra x1 x2, bar by(group) sh(31) l1("rate of die") b1("comparison of rate of die")
餅圖:gra x1 x2 x3 x4 x5, pie by(group) sh(31) total
散點圖與線圖:connect(簡寫c)——連接散點的方式:
. 不連接
l 直線連接
s 平滑曲線連接
|| 直線連接在同一縱向上的兩點
J 階梯式線條連接
symbol(簡寫s)——各個散點的圖形:
O 大圓圈
S 大方塊
T 大三角型
o 小圓圈
d 小菱形
p 小加號
. 小點
gra y x, xlab ylab c(l) s(d)
箱式圖: gra y x, oneway/twoway box
26、方差分析:
方差齊性檢驗:sdtest x1=x2
sdtest x, by (group)
正態性檢驗: sktest x
單因素方差分析: oneway 相應變量 分組變量
兩因素方差分析:anova 相應變量 分組變量1 分組變量2
多因素方差分析:anova x a b c ... a*b b*c a*b*c... //乘積項代表交互作用
27、率、構成比的比較: tab var1 var2 [fw=頻數變量]
chi2 pearson卡方檢驗
exact fisher確切概率法
28、等級資料:
genrank 編秩 genrank rankx=x
signtest 符號檢驗 類似t檢驗,signtest x=常數,signtest x1=x2, signrank x1=x2
signrank 符號秩和檢驗
ranksum/Wilcoxon 兩樣本秩和檢驗 wilcoxon var, by (group_var)
kwallis 多樣本秩和檢驗(Kruskal-Wallis) kwallis var,by (group_var)
spearman 等級相關 spearman x y
ktau 等級相關(kendall) ktau x y
29、直線相關與回歸: 相關 corr y x
回歸 reg y x
估計與預測 pre yhat
畫圖 gra y yhat l1 l2 l3 l4 x, c(.lssss) s(oiiii) xlab() ylab()
30、多元線性回歸及逐步回歸:
散點圖矩陣: gra y x1 x2, matrix
相關係數矩陣: corr
多元回歸方程: reg y x1 x2
逐步回歸: stepwise y x1-x4, forward fe(2.73)
fe代表fenter選入標準,fs代表fstay剔除標準
逐步回歸法:forward,backward,stepwise,stepwise forward
例如:step y x1-x4, step fe(2.5) fs(2.6) back
31、logistic回歸:
logit y x [fw=f]
blogit y x1 x2 x3/ glogit y x1 x2 x3
也可以同上做逐步Logistic回歸
32、生存曲線:
中位生存時間:survsum 時間變量 截尾變量, by(分組變量)
生存曲線:kapmeier 時間變量 截尾變量, by(分組變量) // kaplan-meier生存曲線
生存率比較: 兩組:wilcoxon 時間變量 截尾變量, by(分組變量)
多組:logrank 時間變量 截尾變量, by(分組變量)
COX分析: cox 時間變量 自變量, dead(截尾變量)
由於專業性和英語學習,統計專業對於留學生來說也是充滿挑戰的學科,想要進一步學好統計,可以尋求 online tutoring 等學術資源。
https://www.studygate.com/blog-cn/%E7%BB%9F%E8%AE%A1statistics%E4%BB%A3%E5%86%99/
https://www.studygate.com/blog-cn/stata%E4%BB%A3%E5%86%99/