數論人生

數論是一門學科,也是我的人生。有人把酒論英雄,我用數字描天下。
正文

統計學原理

(2022-01-25 11:27:55) 下一個

在純數學家的眼裏,統計學是不入流的:沒有漂亮的理論證明,一切都隻是數據、數據和數據。在前蘇聯數學家們編寫的《數學:它的內容,方法和意義》之中,二十章的篇幅,有概率論,就是沒有統計學的一席之地。現在呢,最流行的術語可是“大數據”,一些大學還開設了統計係,搞起了機器學習;看來,統計學還是有存在的必要的。我以前的一個學生,大學專業是《犯罪學》(Criminology),她連幾何、函數、微積分都不學,偏偏就要學統計。學商科的人,不學統計,結果會如何呢?我不知道他們還能幹什麽。

數理統計研究數值化樣本的分布、數字特征(統計量),參數估計,假設檢驗,回歸分析,還要做預測。

抽樣分布

研究對象的全部元素所組成的集合稱為母體或總體,集合的基數可以是可數的,也可以是連續的。母體中一定數量的元素所組成的有限集合(X1, X2,。。。,Xn) 稱為一個子樣,子樣的觀察值通常用小寫字母表示。子樣的可測函數,如果不含任何未知參數,就稱為一個統計量。常用的統計量有:平均值、方差、矩、相關係數、次序統計量等。

當子樣是獨立且同分布(來自同一個母體)時,其分布函數是各個樣本的分布函數之積。對於單個正態母體,子樣的平均值仍服從正態分布,子樣方差服從Kai分布;兩個正態母體下的子樣均值和方差的分布也都是可以確定的。

由於母體的分布函數中通常包含參數,統計量中自然也會如此;但是,有的統計量可能與參數無關,這類統計量稱為該參數的充分統計量;具體來說就是,在給定統計量的值的條件下,子樣取任意值的條件概率與參數無關。我們還有完備統計量:它導出的分布族是完備的,或者說,由子樣的任何可測函數的期望值為零,可以推出該函數以概率1等於零。完備充分統計量可用於構造一致最小方差無偏估計。

參數估計

母體的分布函數中會含有某些參數,我們可以用統計量來估計它們的值,比如用頻率估計概率,用子樣平均值估計母體均值,用子樣方差估計母體的方差。用來進行估計的統計量稱為估計量,這樣的估計稱為點估計。點估計的兩種常用方法有矩法、極大似然法、貝葉斯估計、極大極小估計。

在矩法中,假設有K個參數待估,而母體分布的K階矩存在。讓子樣的各階矩等於母體的各階矩,得到K個方程,解之可得參數的矩法估計量。

在極大似然法中,假設給出了母體的密度函數(含有待估參數),我們按子樣分量的密度函數作乘積,得到似然函數;在給出子樣取值時,似然函數僅是參數的函數。使此函數達到極大值的參數,就是極大似然估計量。

衡量估計的優劣標準有:

無偏性:估計量的期望值等於該參數;

最小方差:在所有估計量中,方差最小;

一致性:估計量依概率收斂於該參數。

貝葉斯估計依賴於先驗分布和後驗分布的概念。假設母體的密度函數f(x, t) 依賴於參數t,把t看作是其取值範圍內的一個隨機變量,這樣它就有一個分布函數H(t)和密度函數h(t)(稱之為先驗分布和先驗密度)。

假設先驗分布已經給定,取定一個參數值後,可以產生一個子樣(X1,X2, …, Xn);子樣和參數t的聯合分布密度是f(X, t) = f(x1|t)f(x2|t)…f(xn|t)h(t), 子樣的邊際密度是聯合密度對參數t的積分。在給定子樣的值時,參數t的條件密度(稱為後驗密度)等於聯合密度除以邊際密度;這就是貝葉斯定理。當變量為離散型時,隻要把密度換為分布列、積分換為求和,定理依然成立。

用統計量T去估計參數t,當然會有誤差,這種誤差稱為損失函數;常用的是平方損失函數:L(t, T)= C(t)(T – t)^2。損失函數關於後驗密度的數學期望叫做估計量T的後驗風險,使後驗風險達到最小值的估計量就是參數的貝葉斯估計。

損失函數關於母體密度的數學期望叫做估計量的風險(函數)R(t, T),它表示了估計的平均損失。風險函數對先驗密度的數學期望叫做估計量的先驗風險。一般來說,使先驗風險達到最小值的估計量也使後驗風險達到最小,但反之不然。

在風險函數R(t, T)中,對t(在參數空間中)求上確界,使得上確界達到最小的估計量T稱為參數的極大極小估計。我們有判別極大極小估計的充分條件。

對於母體分布F(x,t)中所含的未知參數t(母體分布已知),我們選取一個子樣和一個統計量。如果統計量的分布可以求出,那麽根據這個統計量所滿足的分布,我們可以求出一個區間,使得參數t落在此區間內的概率為給定的數值(置信度);這就是參數的區間估計。

假設檢驗

假設我們要判定一枚硬幣是否均勻(公正),即正麵出現的概率是不是二分之一。我們可以拋硬幣N次(如1000次),如果正麵出現的次數接近N/2,我們可以認為它是均勻的;如果正麵出現的次數遠離N/2,它就不是均勻的。可如何來衡量 “接近” 呢?

我們可以取一個以N/2為中心的閉區間,長度為2L。如果正麵出現的次數落在此區間內,我們就說它是均勻的(這個區間叫做接受域),否則就不是。關鍵是,區間的長度要取多大。

由於判斷隻是基於一次偶然的實驗,我們可能會犯錯。很可能硬幣是均勻的,但是本次試驗中,正麵出現的次數卻落在了拒絕域中,我們因而說它是不均勻的;這是第一類錯誤。第二類錯誤是,它本來是不均勻的,我們卻說它是。

如果區間長度太大,犯第二類錯誤的概率就大;如果區間長度太小,犯第一類錯誤的概率就大。總之,不可能使得犯兩類錯誤的概率都很小。我們的做法是,控製犯第一類錯誤的概率的上限(稱為檢驗水平),如10%或5%,而使犯第二類錯誤的概率盡可能小。

現在假定硬幣是均勻的。那麽,按照二項分布,它的正麵出現h次的概率就可以算出;把N/2附近的各個概率相加,達到置信水平(1減去檢驗水平)時,就把這些h值作為接受域。這樣,當假設為真時,我們拒絕它的概率就不會超過事先給定的檢驗水平。

然而,犯第二類錯誤的概率是不可能算出來的,因為假設不真實,統計量的分布是未知的。隻能通過抽樣來估計。

一般地,對母體的分布形式或分布中某些未知參數做出某種假設(稱為原假設H0),然後抽取子樣,構造合適的統計量,根據給定的檢驗水平,求出接受域或拒絕域R,這就是假設檢驗的過程。

當統計量的值落在接受域和拒絕域的邊界部分時,我們不是立即接受或拒絕H0,而是以一個概率p拒絕H0(這稱為隨機化檢驗);對每個子樣的值,定義一個勢檢驗數:若相應統計量落在拒絕域,其值為1;邊界為p;接受域為零(也就是原假設被拒絕的概率)。檢驗函數的數學期望稱為此檢驗的勢函數,它與母體分布所含的參數有關。

當參數值在原假設範圍內時,勢函數是犯第一類錯誤的概率;當參數值在對立假設範圍內時,勢函數是不犯第二類錯誤的概率。

回歸分析

一個可觀察的隨機變量Y可能與另一些可觀察的或其值可以指定的一般變量X1, X2, 。。。,Xp有關;為了揭示其關係式,一個最簡單的模型是將Y表示為X的線性組合帶一個常數項,再外加一個不可觀察的隨機誤差項,並假設誤差項的期望值為零,方差給定。這就是線性模型。

對Y和各Xi選取n組獨立的觀察值(n>p),用最小二乘法估算各個組合係數:即使得關於誤差的平方和Se = ||Y- CX||^2達到最小的係數C。這個最小二乘估計也是一致最小方差無偏估計,其方差可以用誤差項的方差表出;誤差項的方差的無偏估計等於Se/(n-p)。

當Y滿足正態分布時,最小二乘估計也滿足正態分布,而Se/a2(a2為誤差項的方差)滿足自由度為n - p的Kai平方分布。

對全部係數相關性的檢驗,可作原假設H0: C1 = C2 =… = Cp = 0。當H0為真時,統計量F = SR/fR:Se/fe滿足自由度為(p, n- p - 1) 的F分布,其中,SR是關於回歸的平方和:即Y的估計值(用線性關係得出)與平均值的差的平方和;fR = p, fe = n - p - 1。

對單個係數相關性的檢驗,可用假設H0: Cj = 0.當H0為真時,有一統計量Fj滿足F分布。

預言與決策

在找出一個母體(隨機變量)的各項影響因子之後,就得到了一個大致的關係式。當出現一個新情況時,把各項數據代入關係式,便可得到一個預測值。在此值的附近,可以找一些已有的樣本,作為可采用的行動。究竟采用哪個,都是有風險的;但隻要最終結果沒有偏離預定目標太多,便算決策成功了。如果偏離目標太多,可能是過去的樣本漏掉了某個影響因子,那就當個教訓,下次再調整;更大的可能是,決策者不采納統計數據,一意孤行,遭致惡果;這隻能咎由自取了。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.