數論人生

數論是一門學科,也是我的人生。有人把酒論英雄,我用數字描天下。
正文

概率論的一般原理和方法

(2022-04-01 08:43:05) 下一個

不管理科還是工科,甚至有的文科專業,如金融學、經濟學、心理學,都要學習概率論;因為未來的決策都要參考過去的數據,而且,怎麽做出偏差較小的回歸分析,需要掌握統計方法;而概率論是統計的基礎。在超微觀世界的粒子物理學裏,一切都是隨機的;Paul發現了不確定性準則,Schrodinger用波函數(其模為概率密度)寫出了電子的運動方程。隨機現象的量化表述需要概率。

概率論作為一門數學理論,最早出現在17世紀。1654年,巴黎的賭博者Le Chevalier詢問了Blaise Pascal關於賭博中一些特定可能性的問題;比如,如果一個遊戲在中突被打斷,每一個玩家成為最終贏家的概率有多大?Pascal與Fermat通信討論了這些問題,還寫了一本書闡述二項式係數與二項概率分布的規則。現代概率論研究的是隨機變量及其分布規律。

一個隨機現象(或試驗R, 如一個粒子的運動)的每一種可能結果,叫做一個基本事件(樣本點);所有基本事件的集合叫做樣本空間S。基本事件的組合,就是複合事件;所有事件的集合,也就是S的所有子集的集合,就是S的冪集P(S)。S的某些子集組成一個集簇F;如果滿足(1) S在F中,空集E也在F中;(2)F中任意可數個集合的並集還在F中,(3)F中任意有限個集合的交集也在F中,(4)如果A在F,則它在S中的補集A*=SA也在F中;則F稱為一個隨機事件空間。

當S為有限集時,如果每個樣本點的出現是等可能的,每個子集A都是一個事件;其概率可以定義為 |A|/|S|,這裏|A|表示A中所含樣本點的個數。當S為三維空間中的一個有界區域時,如一個封閉的立體、或一塊有限的曲麵、或一段有限的曲線,如果每個樣本點落在域中每一位置是等可能的,如果事件A是一塊連續的子區域,其概率定義為 m(A)/m(S),這裏的m(A)是A的幾何度量(體積,麵積或長度);如果A是不連續的子集,m(A)可以用Lebesgue測度。

對於一般的隨機事件空間F,我們可以給出概率的公理化定義。定義一個函數p: F → [0, 1],如果滿足 (1) p(S) = 1,(2)對於兩兩互不相交(互斥)的可數個集合Ai, p(UAi) = sigma{p(Ai): i = 1, 2, …}。由此可以推知以下性質:(a)p(E) = 0 (E 為空集或不可能事件);(b) p(A*) = 1 – p(A), (c) p(AUB) = p(A) + p(B) – P(AB),其中AB表示A與B的交集。此等式還可以用歸納法推廣到有限個集合的並集。(d)若A包含於B,則p(A) ≤ p(B)。(e)如果A1包含A2,A2又包含A3,…, An包含A(n+1),…, 且它們沒有交集,則limp(An) = 0當n趨於無窮大時。

兩個事件A, B,如果滿足p(AB) = p(A)p(B), 就稱為互相獨立的。當p(A) 不為0時,比值p(AB)/p(A)稱作B在A發生的前題下的條件概率,記作p(B|A)。類似地有,p(A|B) = p(AB)/p(B)。事件B獨立於A, 也可以表示為P(B|A) = p(B);當B獨立於A時,自然也有A獨立於B。我們有全概率公式:如果B包含於Ai (i = 1, 2, …, n)的並集,而且Ai兩兩互斥,則必有 P(B) = sigma{p(Ai)p(B|Ai): i = 1, 2, …, n}。由此還可以推出Bayes的後驗概率公式。

在一些情形,試驗的結果取決於前麵試驗的結果,我們說事件具有了時序性或形成了隨機過程。俄羅斯數學家Andrei Markov引進了概率向量、狀態轉移矩陣,並探討了穩定性。空間F中的所有子集/事件存在一種一維的時序關係:每個子集A都對應於一個實數t;t的取值範圍可以是離散的(包括有限),也可以是連續的區間。這時的F稱為一個隨機過程,或者時間序列。過程A(t) →A(s)表示事件A(t)後緊接著事件A(s)(這有別於邏輯的蘊含或集合的包含關係); 它發生的概率為p(A(s)|A(t))。

比起賦予每個事件一個概率,我們有更簡單、更方便的辦法來討論隨機事件:隨機變量及其概率分布與條件分布。一個隨機變量就是樣本空間S上的一個實函數。嚴格來說,設(S,F,P)是一個概率空間,X(s)是S上的一個實值函數,如果對任意實數x,集合 {s: X(s) < x} 屬於F, 則X是一個隨機變量。函數 cdfX(x) = P(X(s) < x) 稱為X的分布函數。它具有以下性質:(1)取值在0與1之間,(2)非降/減:cdfX(x1) ≤ cdfX(x2) 如果x1 ≤ x2,(3)左連續,(4)cdfX (-∞) = 0, cdfX(+∞) = 1。反之,任何滿足這四條性質的函數都是某個隨機變量的分布函數。

隨機變量可以分為三大類:(1)離散型。它隻能取有限個或者可數無窮個值;其分布函數可以用離散的和式表出。常見的離散分布有:兩點分布(Bernoulli分布)、超幾何分布、二項分布、Poisson分布(二項分布的極限情形)、幾何分布。當然,概率函數P(X = xi)是可以隨變定義的,可在實際中,也就是上述幾種,或者它們的線性組合。

(2)絕對連續型,也就是說,cdf(x)幾乎處處連續可微,從而有一個幾乎處處連續的概率密度函數pdf(t):cdf(x) = S{pdf(t)dt: t ≤ x},這裏的S是積分,可以是Riemann積分,或者Lebesgue積分;也就是某種連續和。密度函數具有這些性質:(i)取值在0與1之間,(ii)在整個實軸上的積分為1,(iii)概率P(a < X < b) = S{pdf(t)dt: a < t < b}。反之,滿足這三條性質(加上幾乎處處連續)的函數都是某給隨機變量的密度函數; 而且,兩個幾乎處處相等的密度函數,確定相同的分布函數。常見的此類分布有:(i)某個閉區間上的常數密度,(ii)正態分布(二項分布的連續化),(iii)指數分布(Poisson分布的連續化),(iv)Gamma分布,(v)高斯分布,(vi)柯西分布,等。

(3)既非離散也非絕對連續。比如用一個離散型的Cdf1(x), 與一個絕對連續型的cdf2(x),按照比例r混合:r cdf1(x) + (1-r) cdf2(x),那就既不能列舉,也沒有一個連續的密度函數。需要引進一般的不可數和式,才能處理這類變量。不過在實際問題當中,這類變量出現的機率很小,就忽略不論了。

隨機變量既是函數,就可以進行運算:給定任何一個實函數f: R →R,和任何一個隨機變量X,f(X)也是一個隨機變量;它的分布函數可以由cdfX(x)及f確定。給定兩個隨機變量X和Y,也可以對它們進行加、減、乘、除;這些變量的分布需要用隨機向量的聯合分布來表示。

給定概率空間(S,F,P)上的任意n給隨機變量X1, X2, …, Xn,如果對任意一組實數 (r1, r2, …, rn),集合{s: X1(s) < r1, …, Xn(s) < rn} (這其實是一些集合的交集)也在F中(是一個隨機事件),那麽X = : (X1, X2, …, Xn) 就稱為一個隨機向量。它的分布函數P(X1< r1, X2 < r2, …, Xn < rn)  = cdfX(r1, r2, …, rn) 是一個n元函數,需要用一個n重和式(離散型)或n重積分(絕對連續型)來表示。分布函數具有以下性質:(1)對於任何一個變量ri, 都是單調不減的;(2)對任何一個變量都是左連續的;(3)對於任何一個變量在負無窮大處的值為0;(4)對於所有變量在正無窮大處的值為1. (5)X在矩形區域上的概率,可以用分布函數在邊界上的值表出;比如n = 2的情形是,P(a ≤X1 < b, c ≤ X2 < d) = cdf(b, d) – cdf(a, d) – cdf(b, c) + cdf(a, c)。

在聯合分布函數中,如果單獨某個變量取為正無窮大,結果就是其它變量的邊際(Marginal)分布函數;比如cdfX(x) = cdf(x, ∞),cdfY(y) = cdf(∞, y)。

兩個隨機變量X和Y,稱為是相互獨立的,如果對於任意兩個實數集R的子集A和B,總有P(X∈A, YB) = P(X∈A) P(Y∈B)。n個隨機變量的相互獨立性可以類似定義,但要區別於“兩兩相互獨立”的概念。這種獨立性的定義很難操作,我們可以用分布函數來判定。

兩個隨機變量X和Y是相互獨立的,當且僅當,P(a ≤ X ≤ b, c ≤ Y ≤ d) = P(a ≤ X ≤ b) P(c ≤ Y ≤ d), 對所有實數 a ≤ b 及 c ≤ d 成立。或者說,cdf(x, y) = cdfX(x) cdfY(y)。

也可以用密度函數來判定:(1)若 X 和 Y 是離散型的,則X 與 Y 相互獨立的充要條件是它們的聯合概率函數 pX,Y 滿足 pX,Y(x, y) = pX (x) pY (y) 對所有實數 x, y 成立。(2)若 X 和 Y 是絕對連續型的,則X 與 Y 相互獨立的充要條件是它們的聯合密度函數 fX,Y 滿足 fX,Y(x, y) = fX (x) fY (y) 對所有實數 x, y 成立。

第三種表述方式是條件概率。對於離散型的二維隨機向量(X, Y),Y在給定條件X = x下的分布列為pY|X(y|x) = : P(Y = y|X = x) = P(X = x, Y = y)/P(X = x);對於絕對連續型的二維隨機向量(X, Y),Y在給定條件X = x下的分布密度為fY|X (y | x) = fX,Y (x, y)/fX (x) ,其中, fX(x) = S{fX,Y(x, y)dy: -∞ < y < ∞}。那麽,X與Y獨立的條件就是,pY|X(y|x) = pY(y),或者 fY|X (y | x) = fY (y)對所有實數x, y成立。

在概率論中,對隨機變量的分布函數的表述,還可以用一些數字特征來進行;有期望值、方差,以及各階矩,生成函數或特征函數。它們包含了分布的全部信息,或者說,離散型和絕對連續性變量的分布函數,可以由這些數字特征唯一確定:通過矩生成函數或者特征函數,我們就可以知道那是一個什麽分布。

一個隨機變量X的期望值E(X)定義為 S{x d(cdfX(x): x ∈ R)}.如果X是離散的,這是一個級數;若為絕對連續型,這是一個黎曼積分;如果cdfX(x)是一個Lesbesgue可測函數的話,這就是一個Lesbegue積分。在量子力學中,這是一個Feynman積分;你要定義自己的積分也未償不可,隻要它能夠收斂到一個有限的數。X的k階矩就是E(X^k);k階中心矩是E((X – E(X))^k);k=2時是方差;方差的算術平方根就是標準方差。

期望算子具有一些奇妙的性質:(1)E(c) = c對任意常數c;(2)線性性:E(aX + bY) = aE(X) + bE(Y),對任何常數a, b;(3)二次多項式E((X – t)^2)當t = E(X)時取得最小值,(4) 如果X與Y相互獨立,則有E(XY) = E(X)E(Y),或者協方差Cov(X, Y) =: E([X – EX](Y – EY)) = 0。協方差與X及Y的標準方差的比值,稱為X與Y的相關係數。這是回歸分析中的一個重要指標。

隨機變量X的生成函數定義為E(t^X),t是一個實參數。矩生成函數為MX(s) = E(e^(sX)),s為實參數;如果兩個隨機變量的矩生成函數相等,那麽它們必有相同的分布(函數)。MX(s)有時可能不收斂,我們可以代之以特征函數CX(t) = E(e^(itX)),由於e^(itX)的模為1,CX總可以收斂到有限數(要求密度函數在函數空間L^1(R)之中),而且也滿足唯一性的要求。

在概率論的應用中,我們需要考慮來自同一個母體的抽樣分布:設X1, X2, …, Xn是一個獨立、同分布的、大小為n的樣本(隨機變量),我們構造一個統計量Y = h(X1, X2, …, Xn),其中h是任意實函數,但通常取為樣本的各種均值。在一些特殊情形,Y的分布函數可以精確算出;但在大多數情況下,精確分布是不可能算出的,隻能考慮近似分布。對於不同的樣本大小n,我們構造出了一個隨機變量的序列Yn;當n趨向於無窮大時,Yn的極限分布通常很簡單。我們有諸多的中心極限定理。

在實際情況中,母體的分布(參數)是未知的。我們可以收集一個樣本(X1,X2, …, Xn),用一組觀測值 (r1, r2, …, rn) 去估計隨機變量Y。比如,樣本均值可以作為母體均值的估計;如果當n趨向於無窮大時,統計量Yn趨向於所要估計的參數,這個估計量Y就是一致的(consistent)。關於一致性估計,我們有強大數定律和弱大數定律。如果E(Y)等於待估計的參數,這種估計還是無偏的。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.