數論人生

數論是一門學科，也是我的人生。有人把酒論英雄，我用數字描天下。

首頁文章列表博文目錄

個人資料

歐洲聯盟 (熱門博主)

給我悄悄話

博客訪問：

統計學原理

(2022-01-25 11:27:55) 下一個

在純數學家的眼裏，統計學是不入流的：沒有漂亮的理論證明，一切都隻是數據、數據和數據。在前蘇聯數學家們編寫的《數學：它的內容，方法和意義》之中，二十章的篇幅，有概率論，就是沒有統計學的一席之地。現在呢，最流行的術語可是“大數據”，一些大學還開設了統計係，搞起了機器學習；看來，統計學還是有存在的必要的。我以前的一個學生，大學專業是《犯罪學》（Criminology），她連幾何、函數、微積分都不學，偏偏就要學統計。學商科的人，不學統計，結果會如何呢？我不知道他們還能幹什麽。

數理統計研究數值化樣本的分布、數字特征（統計量），參數估計，假設檢驗，回歸分析，還要做預測。

抽樣分布

研究對象的全部元素所組成的集合稱為母體或總體，集合的基數可以是可數的，也可以是連續的。母體中一定數量的元素所組成的有限集合（X1, X2,。。。，Xn) 稱為一個子樣，子樣的觀察值通常用小寫字母表示。子樣的可測函數，如果不含任何未知參數，就稱為一個統計量。常用的統計量有：平均值、方差、矩、相關係數、次序統計量等。

當子樣是獨立且同分布（來自同一個母體）時，其分布函數是各個樣本的分布函數之積。對於單個正態母體，子樣的平均值仍服從正態分布，子樣方差服從Kai分布；兩個正態母體下的子樣均值和方差的分布也都是可以確定的。

由於母體的分布函數中通常包含參數，統計量中自然也會如此；但是，有的統計量可能與參數無關，這類統計量稱為該參數的充分統計量；具體來說就是，在給定統計量的值的條件下，子樣取任意值的條件概率與參數無關。我們還有完備統計量：它導出的分布族是完備的，或者說，由子樣的任何可測函數的期望值為零，可以推出該函數以概率1等於零。完備充分統計量可用於構造一致最小方差無偏估計。

參數估計

母體的分布函數中會含有某些參數，我們可以用統計量來估計它們的值，比如用頻率估計概率，用子樣平均值估計母體均值，用子樣方差估計母體的方差。用來進行估計的統計量稱為估計量，這樣的估計稱為點估計。點估計的兩種常用方法有矩法、極大似然法、貝葉斯估計、極大極小估計。

在矩法中，假設有K個參數待估，而母體分布的K階矩存在。讓子樣的各階矩等於母體的各階矩，得到K個方程，解之可得參數的矩法估計量。

在極大似然法中，假設給出了母體的密度函數（含有待估參數），我們按子樣分量的密度函數作乘積，得到似然函數；在給出子樣取值時，似然函數僅是參數的函數。使此函數達到極大值的參數，就是極大似然估計量。

衡量估計的優劣標準有：

無偏性：估計量的期望值等於該參數；

最小方差：在所有估計量中，方差最小；

一致性：估計量依概率收斂於該參數。

貝葉斯估計依賴於先驗分布和後驗分布的概念。假設母體的密度函數f(x, t) 依賴於參數t,把t看作是其取值範圍內的一個隨機變量，這樣它就有一個分布函數H(t)和密度函數h(t)（稱之為先驗分布和先驗密度）。

假設先驗分布已經給定，取定一個參數值後，可以產生一個子樣（X1,X2, …, Xn)；子樣和參數t的聯合分布密度是f(X, t) = f(x1|t)f(x2|t)…f(xn|t)h(t), 子樣的邊際密度是聯合密度對參數t的積分。在給定子樣的值時，參數t的條件密度（稱為後驗密度）等於聯合密度除以邊際密度；這就是貝葉斯定理。當變量為離散型時，隻要把密度換為分布列、積分換為求和，定理依然成立。

用統計量T去估計參數t，當然會有誤差，這種誤差稱為損失函數；常用的是平方損失函數：L(t, T)= C(t)(T – t)^2。損失函數關於後驗密度的數學期望叫做估計量T的後驗風險，使後驗風險達到最小值的估計量就是參數的貝葉斯估計。

損失函數關於母體密度的數學期望叫做估計量的風險（函數）R(t, T)，它表示了估計的平均損失。風險函數對先驗密度的數學期望叫做估計量的先驗風險。一般來說，使先驗風險達到最小值的估計量也使後驗風險達到最小，但反之不然。

在風險函數R(t, T)中，對t（在參數空間中）求上確界，使得上確界達到最小的估計量T稱為參數的極大極小估計。我們有判別極大極小估計的充分條件。

對於母體分布F(x,t)中所含的未知參數t（母體分布已知）,我們選取一個子樣和一個統計量。如果統計量的分布可以求出，那麽根據這個統計量所滿足的分布，我們可以求出一個區間，使得參數t落在此區間內的概率為給定的數值（置信度）；這就是參數的區間估計。

假設檢驗

假設我們要判定一枚硬幣是否均勻（公正），即正麵出現的概率是不是二分之一。我們可以拋硬幣N次（如1000次），如果正麵出現的次數接近N/2，我們可以認為它是均勻的；如果正麵出現的次數遠離N/2，它就不是均勻的。可如何來衡量 “接近” 呢？

我們可以取一個以N/2為中心的閉區間，長度為2L。如果正麵出現的次數落在此區間內，我們就說它是均勻的（這個區間叫做接受域），否則就不是。關鍵是，區間的長度要取多大。

由於判斷隻是基於一次偶然的實驗，我們可能會犯錯。很可能硬幣是均勻的，但是本次試驗中，正麵出現的次數卻落在了拒絕域中，我們因而說它是不均勻的；這是第一類錯誤。第二類錯誤是，它本來是不均勻的，我們卻說它是。

如果區間長度太大，犯第二類錯誤的概率就大；如果區間長度太小，犯第一類錯誤的概率就大。總之，不可能使得犯兩類錯誤的概率都很小。我們的做法是，控製犯第一類錯誤的概率的上限（稱為檢驗水平），如10%或5%，而使犯第二類錯誤的概率盡可能小。

現在假定硬幣是均勻的。那麽，按照二項分布，它的正麵出現h次的概率就可以算出；把N/2附近的各個概率相加，達到置信水平（1減去檢驗水平）時，就把這些h值作為接受域。這樣，當假設為真時，我們拒絕它的概率就不會超過事先給定的檢驗水平。

然而，犯第二類錯誤的概率是不可能算出來的，因為假設不真實，統計量的分布是未知的。隻能通過抽樣來估計。

一般地，對母體的分布形式或分布中某些未知參數做出某種假設（稱為原假設H0），然後抽取子樣，構造合適的統計量，根據給定的檢驗水平，求出接受域或拒絕域R，這就是假設檢驗的過程。

當統計量的值落在接受域和拒絕域的邊界部分時，我們不是立即接受或拒絕H0,而是以一個概率p拒絕H0（這稱為隨機化檢驗）；對每個子樣的值，定義一個勢檢驗數：若相應統計量落在拒絕域，其值為1；邊界為p;接受域為零（也就是原假設被拒絕的概率）。檢驗函數的數學期望稱為此檢驗的勢函數，它與母體分布所含的參數有關。

當參數值在原假設範圍內時，勢函數是犯第一類錯誤的概率；當參數值在對立假設範圍內時，勢函數是不犯第二類錯誤的概率。

回歸分析

一個可觀察的隨機變量Y可能與另一些可觀察的或其值可以指定的一般變量X1, X2, 。。。，Xp有關；為了揭示其關係式，一個最簡單的模型是將Y表示為X的線性組合帶一個常數項，再外加一個不可觀察的隨機誤差項，並假設誤差項的期望值為零，方差給定。這就是線性模型。

對Y和各Xi選取n組獨立的觀察值（n>p)，用最小二乘法估算各個組合係數：即使得關於誤差的平方和Se = ||Y- CX||^2達到最小的係數C。這個最小二乘估計也是一致最小方差無偏估計，其方差可以用誤差項的方差表出；誤差項的方差的無偏估計等於Se/(n-p)。

當Y滿足正態分布時，最小二乘估計也滿足正態分布，而Se/a2（a2為誤差項的方差）滿足自由度為n - p的Kai平方分布。

對全部係數相關性的檢驗，可作原假設H0: C1 = C2 =… = Cp = 0。當H0為真時，統計量F = SR/fR：Se/fe滿足自由度為（p, n- p - 1) 的F分布，其中，SR是關於回歸的平方和：即Y的估計值（用線性關係得出）與平均值的差的平方和；fR = p, fe = n - p - 1。

對單個係數相關性的檢驗，可用假設H0: Cj = 0.當H0為真時，有一統計量Fj滿足F分布。

預言與決策

在找出一個母體（隨機變量）的各項影響因子之後，就得到了一個大致的關係式。當出現一個新情況時，把各項數據代入關係式，便可得到一個預測值。在此值的附近，可以找一些已有的樣本，作為可采用的行動。究竟采用哪個，都是有風險的；但隻要最終結果沒有偏離預定目標太多，便算決策成功了。如果偏離目標太多，可能是過去的樣本漏掉了某個影響因子，那就當個教訓，下次再調整；更大的可能是，決策者不采納統計數據，一意孤行，遭致惡果；這隻能咎由自取了。

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.