數論人生

數論是一門學科，也是我的人生。有人把酒論英雄，我用數字描天下。

首頁文章列表博文目錄

個人資料

歐洲聯盟 (熱門博主)

給我悄悄話

博客訪問：

概率論的一般原理和方法

(2022-04-01 08:43:05) 下一個

不管理科還是工科，甚至有的文科專業，如金融學、經濟學、心理學，都要學習概率論；因為未來的決策都要參考過去的數據，而且，怎麽做出偏差較小的回歸分析，需要掌握統計方法；而概率論是統計的基礎。在超微觀世界的粒子物理學裏，一切都是隨機的；Paul發現了不確定性準則，Schrodinger用波函數（其模為概率密度）寫出了電子的運動方程。隨機現象的量化表述需要概率。

概率論作為一門數學理論，最早出現在17世紀。1654年，巴黎的賭博者Le Chevalier詢問了Blaise Pascal關於賭博中一些特定可能性的問題；比如，如果一個遊戲在中突被打斷，每一個玩家成為最終贏家的概率有多大？Pascal與Fermat通信討論了這些問題，還寫了一本書闡述二項式係數與二項概率分布的規則。現代概率論研究的是隨機變量及其分布規律。

一個隨機現象（或試驗R, 如一個粒子的運動）的每一種可能結果，叫做一個基本事件（樣本點）；所有基本事件的集合叫做樣本空間S。基本事件的組合，就是複合事件；所有事件的集合，也就是S的所有子集的集合，就是S的冪集P(S)。S的某些子集組成一個集簇F；如果滿足(1) S在F中，空集E也在F中；（2）F中任意可數個集合的並集還在F中，（3）F中任意有限個集合的交集也在F中，（4）如果A在F，則它在S中的補集A*=SA也在F中；則F稱為一個隨機事件空間。

當S為有限集時，如果每個樣本點的出現是等可能的，每個子集A都是一個事件；其概率可以定義為 |A|/|S|，這裏|A|表示A中所含樣本點的個數。當S為三維空間中的一個有界區域時，如一個封閉的立體、或一塊有限的曲麵、或一段有限的曲線，如果每個樣本點落在域中每一位置是等可能的，如果事件A是一塊連續的子區域，其概率定義為 m(A)/m(S)，這裏的m(A)是A的幾何度量（體積，麵積或長度）；如果A是不連續的子集，m(A)可以用Lebesgue測度。

對於一般的隨機事件空間F，我們可以給出概率的公理化定義。定義一個函數p: F → [0, 1]，如果滿足 (1) p(S) = 1，（2）對於兩兩互不相交（互斥）的可數個集合Ai, p(UAi) = sigma{p(Ai): i = 1, 2, …}。由此可以推知以下性質：（a）p(E) = 0 (E 為空集或不可能事件)；(b) p(A*) = 1 – p(A), (c) p(AUB) = p(A) + p(B) – P(AB)，其中AB表示A與B的交集。此等式還可以用歸納法推廣到有限個集合的並集。(d)若A包含於B，則p(A) ≤ p(B)。(e)如果A1包含A2，A2又包含A3，…, An包含A(n+1),…, 且它們沒有交集，則limp(An) = 0當n趨於無窮大時。

兩個事件A, B，如果滿足p(AB) = p(A)p(B), 就稱為互相獨立的。當p(A) 不為0時，比值p(AB)/p(A)稱作B在A發生的前題下的條件概率，記作p(B|A)。類似地有，p(A|B) = p(AB)/p(B)。事件B獨立於A, 也可以表示為P(B|A) = p(B)；當B獨立於A時，自然也有A獨立於B。我們有全概率公式：如果B包含於Ai (i = 1, 2, …, n)的並集，而且Ai兩兩互斥，則必有 P(B) = sigma{p(Ai)p(B|Ai): i = 1, 2, …, n}。由此還可以推出Bayes的後驗概率公式。

在一些情形，試驗的結果取決於前麵試驗的結果，我們說事件具有了時序性或形成了隨機過程。俄羅斯數學家Andrei Markov引進了概率向量、狀態轉移矩陣，並探討了穩定性。空間F中的所有子集/事件存在一種一維的時序關係：每個子集A都對應於一個實數t；t的取值範圍可以是離散的（包括有限），也可以是連續的區間。這時的F稱為一個隨機過程，或者時間序列。過程A(t) →A(s)表示事件A(t)後緊接著事件A(s)（這有別於邏輯的蘊含或集合的包含關係）; 它發生的概率為p(A(s)|A(t))。

比起賦予每個事件一個概率，我們有更簡單、更方便的辦法來討論隨機事件：隨機變量及其概率分布與條件分布。一個隨機變量就是樣本空間S上的一個實函數。嚴格來說，設（S，F，P）是一個概率空間，X(s)是S上的一個實值函數，如果對任意實數x，集合 {s: X(s) < x} 屬於F, 則X是一個隨機變量。函數 cdfX(x) = P(X(s) < x) 稱為X的分布函數。它具有以下性質：（1）取值在0與1之間，（2）非降/減：cdfX(x1) ≤ cdfX(x2) 如果x1 ≤ x2，（3）左連續，（4）cdfX (-∞) = 0, cdfX(+∞) = 1。反之，任何滿足這四條性質的函數都是某個隨機變量的分布函數。

隨機變量可以分為三大類：（1）離散型。它隻能取有限個或者可數無窮個值；其分布函數可以用離散的和式表出。常見的離散分布有：兩點分布（Bernoulli分布）、超幾何分布、二項分布、Poisson分布（二項分布的極限情形）、幾何分布。當然，概率函數P(X = xi)是可以隨變定義的，可在實際中，也就是上述幾種，或者它們的線性組合。

（2）絕對連續型，也就是說,cdf(x)幾乎處處連續可微，從而有一個幾乎處處連續的概率密度函數pdf(t)：cdf(x) = S{pdf(t)dt: t ≤ x}，這裏的S是積分，可以是Riemann積分，或者Lebesgue積分；也就是某種連續和。密度函數具有這些性質：（i）取值在0與1之間，（ii）在整個實軸上的積分為1，（iii）概率P(a < X < b) = S{pdf(t)dt: a < t < b}。反之，滿足這三條性質（加上幾乎處處連續）的函數都是某給隨機變量的密度函數; 而且，兩個幾乎處處相等的密度函數，確定相同的分布函數。常見的此類分布有：（i）某個閉區間上的常數密度，（ii）正態分布（二項分布的連續化），（iii）指數分布（Poisson分布的連續化），（iv）Gamma分布，（v）高斯分布，（vi）柯西分布，等。

（3）既非離散也非絕對連續。比如用一個離散型的Cdf1(x), 與一個絕對連續型的cdf2(x)，按照比例r混合：r cdf1(x) + (1-r) cdf2(x)，那就既不能列舉，也沒有一個連續的密度函數。需要引進一般的不可數和式，才能處理這類變量。不過在實際問題當中，這類變量出現的機率很小，就忽略不論了。

隨機變量既是函數，就可以進行運算：給定任何一個實函數f: R →R，和任何一個隨機變量X，f(X)也是一個隨機變量；它的分布函數可以由cdfX(x)及f確定。給定兩個隨機變量X和Y，也可以對它們進行加、減、乘、除；這些變量的分布需要用隨機向量的聯合分布來表示。

給定概率空間（S，F，P）上的任意n給隨機變量X1, X2, …, Xn，如果對任意一組實數 (r1, r2, …, rn)，集合{s: X1(s) < r1, …, Xn(s) < rn} （這其實是一些集合的交集）也在F中（是一個隨機事件），那麽X = : (X1, X2, …, Xn) 就稱為一個隨機向量。它的分布函數P(X1< r1, X2 < r2, …, Xn < rn) = cdfX(r1, r2, …, rn) 是一個n元函數，需要用一個n重和式（離散型）或n重積分（絕對連續型）來表示。分布函數具有以下性質：（1）對於任何一個變量ri, 都是單調不減的；（2）對任何一個變量都是左連續的；（3）對於任何一個變量在負無窮大處的值為0；（4）對於所有變量在正無窮大處的值為1. （5）X在矩形區域上的概率，可以用分布函數在邊界上的值表出；比如n = 2的情形是，P(a ≤X1 < b, c ≤ X2 < d) = cdf(b, d) – cdf(a, d) – cdf(b, c) + cdf(a, c)。

在聯合分布函數中，如果單獨某個變量取為正無窮大，結果就是其它變量的邊際（Marginal）分布函數；比如cdfX(x) = cdf(x, ∞)，cdfY(y) = cdf(∞, y)。

兩個隨機變量X和Y，稱為是相互獨立的，如果對於任意兩個實數集R的子集A和B，總有P(X∈A, Y∈B) = P(X∈A) P(Y∈B)。n個隨機變量的相互獨立性可以類似定義，但要區別於“兩兩相互獨立”的概念。這種獨立性的定義很難操作，我們可以用分布函數來判定。

兩個隨機變量X和Y是相互獨立的，當且僅當，P(a ≤ X ≤ b, c ≤ Y ≤ d) = P(a ≤ X ≤ b) P(c ≤ Y ≤ d), 對所有實數 a ≤ b 及 c ≤ d 成立。或者說，cdf(x, y) = cdfX(x) cdfY(y)。

也可以用密度函數來判定：（1）若 X 和 Y 是離散型的，則X 與 Y 相互獨立的充要條件是它們的聯合概率函數 p_X,Y 滿足 p_X,Y(x, y) = p_X (x) p_Y (y) 對所有實數 x, y 成立。（2）若 X 和 Y 是絕對連續型的，則X 與 Y 相互獨立的充要條件是它們的聯合密度函數 f_X,Y 滿足 f_X,Y(x, y) = f_X (x) f_Y (y) 對所有實數 x, y 成立。

第三種表述方式是條件概率。對於離散型的二維隨機向量(X, Y)，Y在給定條件X = x下的分布列為pY|X(y|x) = : P(Y = y|X = x) = P(X = x, Y = y)/P(X = x)；對於絕對連續型的二維隨機向量(X, Y)，Y在給定條件X = x下的分布密度為f_Y|X(y | x) = f_X,Y (x, y)/f_X (x) ,其中, f_X(x) = S{f_X,Y(x, y)dy: -∞ < y < ∞}。那麽，X與Y獨立的條件就是，p_Y|X(y|x) = p_Y(y),或者 f_Y|X(y | x) = f_Y (y)對所有實數x, y成立。

在概率論中，對隨機變量的分布函數的表述，還可以用一些數字特征來進行；有期望值、方差，以及各階矩，生成函數或特征函數。它們包含了分布的全部信息，或者說，離散型和絕對連續性變量的分布函數，可以由這些數字特征唯一確定:通過矩生成函數或者特征函數，我們就可以知道那是一個什麽分布。

一個隨機變量X的期望值E(X)定義為 S{x d(cdfX(x): x ∈ R)}.如果X是離散的，這是一個級數；若為絕對連續型，這是一個黎曼積分；如果cdfX(x)是一個Lesbesgue可測函數的話，這就是一個Lesbegue積分。在量子力學中，這是一個Feynman積分；你要定義自己的積分也未償不可，隻要它能夠收斂到一個有限的數。X的k階矩就是E(X^k)；k階中心矩是E((X – E(X))^k)；k=2時是方差；方差的算術平方根就是標準方差。

期望算子具有一些奇妙的性質：（1）E(c) = c對任意常數c；（2）線性性：E(aX + bY) = aE(X) + bE(Y)，對任何常數a, b；（3）二次多項式E((X – t)^2)當t = E(X)時取得最小值，(4) 如果X與Y相互獨立，則有E(XY) = E(X)E(Y)，或者協方差Cov(X, Y) =: E([X – EX](Y – EY)) = 0。協方差與X及Y的標準方差的比值，稱為X與Y的相關係數。這是回歸分析中的一個重要指標。

隨機變量X的生成函數定義為E(t^X)，t是一個實參數。矩生成函數為MX(s) = E(e^(sX))，s為實參數；如果兩個隨機變量的矩生成函數相等，那麽它們必有相同的分布（函數）。MX(s)有時可能不收斂，我們可以代之以特征函數CX(t) = E(e^(itX))，由於e^(itX)的模為1，CX總可以收斂到有限數（要求密度函數在函數空間L^1(R)之中），而且也滿足唯一性的要求。

在概率論的應用中，我們需要考慮來自同一個母體的抽樣分布：設X1, X2, …, Xn是一個獨立、同分布的、大小為n的樣本（隨機變量），我們構造一個統計量Y = h(X1, X2, …, Xn)，其中h是任意實函數，但通常取為樣本的各種均值。在一些特殊情形，Y的分布函數可以精確算出；但在大多數情況下，精確分布是不可能算出的，隻能考慮近似分布。對於不同的樣本大小n，我們構造出了一個隨機變量的序列Yn；當n趨向於無窮大時，Yn的極限分布通常很簡單。我們有諸多的中心極限定理。

在實際情況中，母體的分布（參數）是未知的。我們可以收集一個樣本（X1，X2, …, Xn），用一組觀測值 (r1, r2, …, rn) 去估計隨機變量Y。比如，樣本均值可以作為母體均值的估計；如果當n趨向於無窮大時，統計量Yn趨向於所要估計的參數，這個估計量Y就是一致的（consistent）。關於一致性估計，我們有強大數定律和弱大數定律。如果E（Y）等於待估計的參數，這種估計還是無偏的。

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.