統計推斷(Statistical inference)是指統計學中,根據樣本數據(Sampling data)去推斷總體 (Population) 的數量特征、以概率形式表述的推斷方法。總體即是一項調查的全部對象,稱為一個樣本空間S。在S上,我們可以定義許多隨機變量或隨機向量X:S → Rk (k維歐幾裏德實數空間) 。X的取值具有隨機性即一定的概率分布密度p =p(x, t),但是概率分布(密度)函數是未知的,即使是最簡單的二項分布或者正態分布,其中包含的參數向量t也是未知的;我們隻知道t的取值範圍Ω(參數空間)。我們需要通過取樣,來對含有參數t的某個函數f(t), 通常是X的某個數字特征如期望值、方差、中位數、各階矩等,進行三個方麵的推斷:
(1) 給出f(t)的一致的、充分的、無偏的、方差最小的估計統計量;所謂統計量(statistic),是指隻依賴於樣本(X1, X2, …, Xn)的實值函數,不直接依賴於未知參數t。找估計量的方法通常有四種:(i)矩法,即令樣本的各階矩 Sigma{(Xi)^k: i = 1, 2, …, n}/n 等於總體的各階矩: Integral {x^k p(x)dx: x取所有實數} ,解出參數向量t的表達式,從而得到f(t)的表達式。(ii)極大似然法。如果樣本(X1, X2, …, Xn)是獨立同分布的,那麽它的聯合分布密度函數為 Product {p(xi, t): I = 1, 2, …, n}。在給定樣本時,我們可以選取t,使得此乘積的值達到最大。
iii)Bayesian估計法。把參數t本身看成一個隨機變量;根據經驗或專家的意見,對t提出一個先驗分布密度函數Pi(t);再從總體中取一個獨立樣本(X1, X2, …, Xn);t和樣本的聯合分布密度即為 Pi(t) Product {p(xi, t): I = 1, 2, …, n}. 最後定義一個後驗密度 h(t|x1, x2, …, xn) = 聯合分布密度/聯合分布密度對t的積分。另一方麵,定義一個損失函數L(f(t), T(x)) 如(f(t) – T)^2; 一個風險函數 R(T|x) = Integral {L(f(t), T) h(t|x) dt。使得後驗風險達到最小的估計量T,就稱為f(t)的貝葉斯估計。Iv} 極小極大估計。基於總體分布的平均損失 R(f(t), T) = Integral{L(f(t), T(x)) p(x, t)dx} 稱為風險函數;它在參數空間Ω上的上確界Sup{ R(f(t), T): t屬於Ω}即是最大的平均損失。在所有可能的估計量T中,使得最大平均損失達到最小的那一個就是f(t)的極小極大估計。在一定條件下,貝葉斯估計也是極小極大估計。
(2)假設檢驗,即f(t)取某些值合理嗎?我們可以接受或者拒絕這個假設H0。做法是,選取一個樣本(X1, X2, …, Xn),構造一個統計量T(通常是f(t)的一個估計)。一方麵,在f(t)取到某個值F的假設之下,T的概率分布密度g可以確定;另一方麵,根據樣本的當前觀測值 (x1, x2, …, xn) 計算出來的T值,檢查它是否落在低概率區域R中。如果T隻有一個眾位數m(Unimodal),低概率區域就是概率分布的兩端:|T – m| > 某個數k;如果T的概率密度有多個峰值,低穀可能包含某些中部區域。對形如f(t) > F的單邊假設檢驗,低概率區域設為滿足T(X1, X2, …, Xn)<= h (某個數)的那些值(X1,X2, 。。。,Xn)。對形如f(t) <= F的單邊假設檢驗,低概率區域設為滿足T(X1, X2, …, Xn)> h (某個數)的那些值(X1,X2, 。。。,Xn)。
K或h值的選取【它們又被稱為關鍵值(Critical Value)】取決於我們拒絕原假設的心理底線:如果T的觀測值T (x1, x2, …, xn) 落在了低概率區域R中,我們就稱它是 “奇怪的” (Surprising)。在一次觀測中,就出現了一個小概率事件;這表明原來的假設可能是錯的,我們拒絕接受它。T(x)落入R中的概率稱為P-值(P-Vale):Pv = Prob (T (X1, X2, …, Xn) 屬於R|H0為真) 。當Pv小於一定數值ε(置信水平Significance level或稱檢驗水平)如0,05, 0,01時,我們拒絕原假設. 當原假設成立時,我們拒絕它的概率最多是ε。這就是所謂的犯第一類錯誤的概率。R又被稱為拒絕域。
假設檢驗的另一種方式是構造信任區間(Confidence intervals)CI:給定一個信任度c(如95%, 99%),要找兩個統計量L (X1, X2, …, Xn) 和U (X1, X2, …, Xn) ,使得對於所有參數t,f(t) 落在區間 [L, U] 中的概率(按g的分布式計算)至少為c, 而且區間的長度要盡可能小。當統計量T的值落在此區間之中時,我們接受原假設;犯第一類錯誤的概率最多為1 – c.
也有第二類錯誤:即原假設不成立,而我們接受了它:統計量的觀測值落在了信任區間。犯第二類錯誤的概率為P(T屬於CI|H0不真) = 1 – P(T屬於拒絕域R|H0不真) 。在給定檢驗水平ε即要求P-值小於ε時,我們希望概率P(T屬於拒絕域R|H0不真) = B(t)[稱為勢函數,不僅僅與t有關] 達到最大; 但在實際問題中,這種區域R並不存在。
另一方麵,我們可以找到一個函數G:S → [0, 1],使得在H0成立時,E(G) ≦ε;而在H0不成立時,E(G)取到最大值。這種G就稱為一致最強勢的檢驗函數。構造方法是,當樣本觀測值落在拒絕域R的內部時,G = 1;當樣本落在拒絕域和接受域的邊界時,G取某個小數δ;其它情況下G為0。更具體一點,對於原假設H0: f(t)屬於A,提出一個備選假設Ha: f(t)屬於B;B與A不相交,都是f(t)的值域的子集。定義一個廣義似然比Lamda(X) = Sup{p(x, t): f(t)屬於A}/Sup(p(x, t): f(t)屬於B); 當Lamda小於c時,G取1;等於c時取δ;大於c時取0。根據Neyman-Pearson的引理,可以證明這是一個一致最強勢的檢驗函數。
(3)概率模型的檢驗。我們提出的關於一個隨機變(向)量X的概率模型p(x, t)並不一定準確;最多隻能評估一組觀測數據s是否合符該模型。如果觀測數據令人驚異,那麽該模型可能不對。為此,我們提出一個原假設H0: X滿足概率密度函數p(x, t);備選假設就是X滿足另一種概率密度度q(x, t)。一個方法是構造一個偏差統計量D:S → (0, +∞) ,過大的D(s)值表明模型有偏差。當然,一次觀測值D(s)是無法衡量大小的,我們隻能看D(s)的值是否落在其值域分布的低概率區域中;檢驗用的P-值定義為P(D > D(s)); 其中P為D的概率函數。要求在假設H0成立時,D(X1, X2, …, Xn)的概率分布與參數t無關,即對所有的t,D的分布都是相同的;這種統計量被稱作是輔助的(ancillary)。
偏差統計量D的一種具體構造方法是用剩餘值(Residuals), 如r = (X1 – Avg(X), X2 – Avg(X), …, Xn – Avg(X)) ,其中Avg(X) = (X1 + X2 + … + Xn)/n為樣本均值。基於r構造的統計量D,如k階均值 Sigma(|Xi – Avg(X)|^k)/n, 甚至k = +∞的 max(|Xi – Avg(X)|)都是輔助的。還可以找任何一個凸函數C,構造C-均值:C^(-1)(Sigma{C(|Xi – Avg(X)|)/n}。再應用大數定律、中心極限定理去求D的近似(極限)分布;理論計算有困難時,還可以進行模擬(Simulation)。
在貝葉斯方法中提出的先驗概率密度Pi(t),可能與實際觀測數據相衝突。給定一個觀測值x, 對於參數空間Ω的任一子集A,我們定義一個預估概率M(A) = Epi(p(x, t屬於A)) = Sigma{Pi(t) p(x, t): t屬於A},即p(x, t)按照先驗分布的平均值。在給定p(x, t)時,M的分布是可以確定的。如果對某個子集A,M的值落入了其分布的低概率區域之中,那就表明先驗分布不對,或者概率模型p(x, t)不對。有定理表明,對於極小的充分統計量T,在給定T的值時,預估概率與先驗分布無關;因此,要檢查數據衝突,需要采用後驗預估概率。
如果查出模型不對,可以多做幾次檢驗。不幸的是,做太多的模型檢驗,幾乎可以肯定的是,一切都將是錯誤的。也可以對其模型改進;一種辦法是采用變量代換,比如Y = Exp(X),X滿足正態分布時,可以把Y取對數。再就是進行預測;一個經得起檢驗的模型或者理論,必須能夠在應用於新的獨立數據集時,預測新的數據。統計學家們可等不起;他們會把觀測到的數據分成兩組,一組用來做訓練,構造出各種數字特征(稱為預言者)。剩餘數據則用來驗證;根據此組數據中的實際值與預測值的偏差,可以評估驗證集是否奇異;從而斷言某個總體(隨機變量)分布的合理性。