白癡黑話

沒什麽的,隨便寫寫,師傅讓弄個,就弄了個。。。
正文

什麽是概率? (一 至 五)

(2008-05-07 20:15:41) 下一個
idiot94按:每次各種各樣腦癱上談論的最多的,吵得最不可開交的,最後好像結論也最不清楚地,往往就是概率問題。確切的說,往往是一些本身並沒有說清楚地古典概型的問題。“問題“並不處在如何“解題“上,其實是出在如何理解那些所謂的題目上,討論者如果沒有明白這個關鍵,鑽在計算細節裏麵出不來,自然會爭論個沒完。小的想要提醒大家,計算隻是個手段而已,要在概念必須清楚,如果該計算什麽東西都沒有搞清,計算本身還有什麽意義呢?
所以不辭愚陋不怕麻煩,囉裏巴索寫下許多廢話來給大家飯後茶餘找個樂子。
————————————————————————————

好好活就是有意義,有意義就是好好活! ---- 許三多


1)直覺上的概率,為什麽要研究“概率“?物理上的概率。

我們經常說到“概率“這個詞,可是,先且不講這個詞到底是什麽意思,我們先來看看我們為什麽要對這麽個詞感興趣,好嗎?
有人說,概率就是研究不確定性的學問。想想也是,要是沒有什麽不確定性,也就是說,我們總能夠清楚知道未來,還要概率這東西做甚?所謂不確定,什麽意思呢?就是我們不知道下一個時刻具體會發生什麽事情,換句話說,就是根據我們現在手頭上掌握的信息,我們無法精確預報下一個時刻將要發生的事情。這其實有兩種不同的可能含義:
a)我們沒有掌握足夠的信息或者數據,所以無法預測。而如果我們掌握了“足夠“的數據,則完全可以精確的預測下一個時刻的事件。
b)即使我們掌握了所有的信息(截止目前為止),也一定無法預測下一個時刻的事件。後者不完全由過去的狀態所決定。
這是兩種完全不同而且差異很深刻的世界觀,前者是決定論(比如經典的牛頓力學),後者在某種程度上是一種不可知論(比如現代量子論)。在決定論的觀點下,沒有真正不確定的事件,而在現代量子論(我之所以強調現代兩個字,是為了提醒大家量子理論仍然在不斷發展,或許明天或許此刻就已經有了新的突破,不過我不知道罷了)的觀點下,則恰恰相反,沒有什麽完全確定的事件,有的都隻是各種可能性的(所謂“幾率波“)的疊加而已。這兩種觀點,孰是孰非,隻怕會永遠鬥爭下去。現在盡管物理學上量子理論占上風,可也不是沒有不同的聲音,比如愛因斯坦就說他絕不相信上帝是在擲轂子。(嗬嗬,其實偶倒覺得他應該無所謂,連韋小寶都想要幾點就能擲幾點,何況上帝,就算擲,也還是決定論:))

好了,羅嗦了大半天,偶就是要強調一點,有很多朋友總認為存在一個直觀上的概率,一個符合“現實生活“的“自然“的概率,這是不嚴格的。說了許多,就是想傳達這樣一個信息:對於我們的現實生活中有沒有“不確定的“事件,有沒有“概率“這樣的東西,我們現在也不是很清楚,可能永遠也不會清楚。所以,我們必須分清楚什麽是數學上抽象出來的概率,它的精確定義又是什麽,我們不能滿足於總是混淆抽象的但是卻嚴格的概率概念和直覺的但是卻含混不清的“可能性“或者“不確定性“的想法。

讓我們以一個可能是最常見的例子來結束第一部分----
拋擲一個均勻的硬幣(fair coin tossing):通常我們在“概率問題“中一提到“拋一個均勻的硬幣“,我們幾乎總是隱含著這樣的意思:這個硬幣出現正麵(Head)或者反麵(Tail)的“概率“各是 1/2。或者更加具體一些,我們以為,拋出去的硬幣出現正麵和出現反麵的“可能性“是一樣的,這樣兩個事件是“完全對稱“的----由於硬幣本身物理上的對稱性(所謂均勻)而導致的。這裏,我們有意無意的忽略了投擲者這個因素。我們在現實生活中,也常常用這樣的方式來“隨機“的決定一些事情,比如在世界杯上誰先開球等等。
實際上,我們這樣做是嚴重的想當然。主要表現在兩個方麵:
a) 投擲者的影響未必是可以忽視的。極端的情況下,想象一台精密的拋擲機,我們當代的技術顯然可以把它做到足夠好,使得它完全可以控製拋擲結果。即使在一般情況下,一個普通人,我們有什麽理由認為他的習慣動作對於拋擲結果沒有任何影響呢?他的意識和願望對於結果沒有任何影響呢?斯坦福大學統計係的教授Persi Diaconis 會在他給學生的第一節課上演示,他可以按照任何給定的序列要求,將一枚普通的硬幣精確的擲出相應的結果,“這個世界上沒有什麽是隨機的“,我的一位朋友有幸在他的課堂上目睹了這樣有趣的一幕,所以我有幸聽到這個生動的故事。

“There is nothing random about this world" --- Prof. Diaconis

b) 其次,我們即使願意相信正麵和反麵大致對稱,我們又憑什麽說他們出現的可能性各是1/2 呢?也就是說,我們為什麽有權利不考慮其他的情況呢?比如,硬幣落下去之後,立在了地上?或者是落地後碎成了兩半,一半正,一半反;或者3片,4片。。。,或者把地板砸個洞,然後找不到了。。。等等,嗬嗬,我並不是在搞笑抬杠(至少不完全是),這些事情,找個力氣大點的兄弟,或是質量差點的硬幣(但仍然均勻),或地板,都不是那麽不可能的。

我們為啥又可以那麽理直氣壯的“忽略“這樣的問題呢?其實我們並不理直氣壯,隻不過如果要什麽都考慮在內的話,那恐怕就什麽也做不了了。拋硬幣這樣一個直觀的物理現象啟發了我們的直覺,我們意識到這個現象中有些很有用的主要矛盾,如果我們抽象出來,會對我們分析處理許多別的問題有幫助。於是,我們走出了從直覺到嚴密的抽象的數學的第一步,古典概率。


“我那個是有證明的。“---------亂彈

2. 古典概率

古典概率由直覺而萌生,開始的時候和直覺也幾乎沒有區別。比如拋擲硬幣的“隨機試驗“,在古典概率的初期,這個本應為抽象的數學的思想試驗和實際的物質的真實拋擲也是不加區分的。但是很快,人們就發現抽象的定義這種事件的好處,古典概率也就從能夠處理隻有兩麵的硬幣,隻有六麵的轂子,到任何有限的對象,比如{1,2,...,n}這樣的集合,甚而至於到許多離散的結構(可數的無窮集)等等。

一般的,對於一個可以有K種互異互斥的結果的試驗A,我們記這些結果(稱為事件)為{A1, A2, ..., AK}, 對於每一個事件Ai, 都有一個相應的發生的可能性Pi,這些Pi 滿足:0<=Pi<=1, 0表示不可能發生,1表示一定會發生。而且P1+P2+...+PK=1.

這樣的Pi也可以表示成Ai的函數P,P(Ai)=Pi ----這個函數就叫做{A1,..}的概率(函數)。而{A1, A2,...AK}叫做樣本空間。(其實也不嚴格)

這樣的抽象定義來源於古典概率對概率的“統計理解“: 假定我們反複的進行試驗A,進一步假定每一次的試驗都完全不影響另外的試驗,如果進行N次試驗A,得到N1次A1, N2次 A2, ... NK次 AK,那麽顯然 Ni 不能是負的,也不能超過N, 而且N1+N2+..+NK=N. 最後,如果N足夠大,那麽 Ni/N 應該接近於P(Ai)=Pi, 如果N趨於無窮大的話,那麽Ni/N應該有極限,而且等於Pi.

這個“統計理解“實際上是我們出於直覺而認為“概率“應該具備的含義。也是古典概率中“概率“的含義。

我們將會看到對於更加一般的問題,這樣的概念是遠遠不夠的。然而,僅僅是這第一步的抽象,已經使得我們可以描述和處理一些有趣的東西了:

例子1:首先還拋硬幣!這次我們可以清楚地定義拋硬幣為如下試驗C: 它隻有兩種可能的結果{H,T}, 其中P(H)=P(T)=1/2. (滿足P(H)+P(T)=1) 這裏我們完整的定義了一個理想狀況下的隨機試驗。函數P給出了這個實驗結果的概率函數。我們也完全可以定義另一個拋(不均勻)硬幣試驗D, 也隻有兩種結果{H, T}, 但是P(H)=1/3, P(T)=2/3. 這也是完全合法的一個隨機試驗,隻不過有著不同的概率函數罷了。

注意:這裏的定義和上麵討論的那個“統計理解“完全無關,和您真的拿一枚硬幣拋10000次,其中有多少個正麵,多少個反麵,多少次掉下樓梯什麽的更是完全無關。我們從直覺中總結出那個抽象的定義之後,我們就直接處理那個抽象的對象了,而不必再回到原來的直覺中去。

例子2:(隨機變量,期望)設想我們倆賭博(哦,順便說一下,概率最先都是為了研究賭博而開始的,據說最早的概率論專家都是賭棍。。嗬嗬,這個可能無從考證了,不過,我上篇裏麵提到的Prof. Diaconis, 還有他們係另一個prof. Thomas Cover 都是被各大賭場ban掉的,嗬嗬),規則是,進行上述試驗C, 如果結果是H, 則我贏得¥1,否則我什麽也不贏。那麽問題是,您應該收取多少錢的門票才使這個賭博遊戲公平呢?一個直觀的想法是,這個“門票“應該等於我贏錢的“平均值“:¥1*1/2+ ¥0*1/2=¥0.5 ---- 這個想法,也源自於類似上麵談到的“統計理解“,請有興趣的讀者自行補出。

一般的,對於試驗A, 在{A1, A2, .. AK}上有相應的賠率G(Ai), 我們稱 E(G)=G(A1)*P(A1) + G(A2)*P(A2) + .. G(AK)*P(AK) 為G的期望。請允許我們暫且偷安,把這樣的函數G:{A1, A2, .., AK} -> R 稱為隨機變量。(強調,還是不嚴格的,這是古典概率的根本缺陷所導致的)

例子3:(分布)我們常常看到有些朋友貼出題目裏麵有這樣的話:“隨機的選取5個數。。。“。現在我們看到,這樣的說法是不嚴格的,含混的。它的含混不清是在兩個層次上的:
首先,它要表達的意思其實是說,“取一個隨機變量X (不是樣本空間!!),它的值域由5個數構成,。。。“, 而原來的表述很容易讓人混淆成為正在定義一個樣本空間。這個是古典概率本身的毛病,很多時候都對這兩件事情不加區分。然而這是致命錯誤,它導致了許多著名的“悖論“,而正是對於這些“悖論“的思考引導概率論最終走上正途,形成了現代的體係。我們以後將會詳細討論。
不過,這種混淆雖然嚴重,但是在處理有限的對象,甚至許多離散的對象(可數無限)時,是不會出什麽大問題的。
其次,這個說法,無論按照上麵的哪一種理解,都沒有給出這個隨機變量或者樣本空間的概率分布細節。這是個更加初級的錯誤,即使在古典概率中,也不會允許其存在。比如上麵的例子1,試驗C或D的拋硬幣的結果都是“隨機“的,但是當然會給出完全不同的結論。我們很多朋友都自動的以為,“隨機“的意思就是說“等可能的“。這顯然是不對的,現在我們已經明白,我們可以定義任何樣本空間上的任何概率,隻要滿足非負,歸一(就是加起來等於一)就可以了。對於一個隨機變量,它更是可以以任何概率等於某一個值,而完全沒有義務要“等可能“。我們討論了許多,還要強調的就是“等可能的分布“既不比其他任何分布合理,也不比其他任何分布合法。
更為嚴重的是,有很多時候,“等可能的“分布完全就是不可能的!

我們繼續看幾個例子:

例子4:(無窮的樣本空間)比如有的朋友建議,我們的概率應該符合如下的直覺:我們隨機的取一個自然數,那麽它是偶數的“概率“是1/2。
在這裏,所謂“隨機“的選取,就是一個常見的毛病,並沒有很好定義。而且許多朋友認為應該可以解釋成“等可能的“選取(相對於每一個自然數來說),可是這是不可能的。根據古典概率定義,如果我們把選擇自然數n當作試驗X的話,可能的結果,樣本空間就是{ 1,2,3,。。。} ,相應的概率函數是P(i), i=1,2,.... 但是這個函數P必須滿足0<=P<=1, 以及P(1)+P(2)+..+P(k)+...=1. 很顯然,如果要求所有的P(i)都相等的話,這是不可能的。換句話說,就是對於無限的離散的樣本空間而言,不存在所謂的平均分布(uniform distribution)。
可是,朋友們一定會困惑,那麽為什麽我們會有這樣的直覺呢?嗬嗬,這就是直覺隻能是直覺而不是事實的道理啊。毛主席憑直覺認為哪兒都有5%的壞人,結果抓來抓去,抓起個沒完,諾大個國家給弄得淒淒慘慘戚戚差點兒斷了氣,完全靠直覺是靠不住的,我們必須講求嚴格的思維。現在,就讓我們來仔細看看這個直覺究竟有什麽樣的隱患呢?
我們之所以覺得碰到偶數的“概率“是1/2, 是因為,第一,偶數和奇數可以建立一個一一映射,他們“一樣多“ ---- 當然,大家都知道,這個理由大概不夠,因為能被3整除的數也可以建立一個和不能被3整除的數的一一映射,然而,同樣的直覺隻怕要告訴我們,隨便挑一個自然數,能被3整除的機會大概應該隻有1/3左右。因此,還有第二條重要的觀察:奇偶數一個間一個的排的整整齊齊,很有規律,比如你任取一段有限的區間{1,2,..,2k}, 那麽在這個區間內選擇一個數字,它是偶數的概率是1/2(根據古典概率的定義,可以計算),於是讓k->無窮,從而得出對於整個自然數集的“直覺“性質。這樣不加任何保障,想當然的由有限過渡到無窮的做法是很危險的。仍然用這個例子,讓我們進一步想象,我們來玩這樣一個遊戲,您“隨機“的在{1,2,。。,k} 中選取一個整數,如果在給定的區間內再也沒有比您選的數大的數的話,也就是說如果這個整數等於k的話,那麽我就給您k元錢,否則什麽也不給。那麽對於這個遊戲來說,公平的價錢顯然是您的收益的期望值,也就是k*(1/k)=1元。對於任何一個有限的k都是如此,所以,如果我們讓這個k趨於無窮的話,我們憑直覺還應該有一個價值為1元的公平遊戲。可是,這時候遊戲變成了您“隨機“的選取一個自然數x,如果沒有一個比它更大的自然數的話,我就付給您x元,很顯然,您永遠也不會得到任何東西的,所以這個遊戲當然應該一文不值。這和那個想當然的直覺明顯矛盾。問題出在哪兒了呢?就出在那個所謂“極限“過程,看似自然,其實不然。
我們以後還會看到,貫穿現代概率論的一係列重要的定理,就是各種各樣的收斂性定理,這些提供了我們通向無窮之路的邏輯基礎。

說到這裏,我想把前麵亂彈斑竹在跟貼中提到的“兩個信封“的問題提出來,供大家思考:
我手裏有兩個信封,各有一張支票在內,上麵均有正整數麵額的款項,已知其中一個是另一個的兩倍,但是具體是多少,沒人知道。現在您打開其中一個信封,發現支票上是20元,現在我給您這樣一個機會:您可以選擇用它交換我手裏的信封,也可以不交換。問題是:您應該交換嗎?於是聰明的您開始計算:另一個信封裏麵可能是10元,也可能是40元(沒有其他可能了),平均來說,您可以期望得到(10+40)/2=25元 > 20元。 所以,按概率來說,應該交換。對嗎?

我在上篇的末尾對於古典概率抱怨了幾句,因為實在是寫累了 :)嗬嗬,希望大家不要誤會,我和古典概率不僅沒仇,而且現在還要給它說說好話,我們來看下麵這個著名的例子:

例子5:(game of points) 費馬和帕斯卡是古典概率的兩位重要的大家,有一天,哥兒倆在一起賭博(嗬嗬,偶沒說錯吧?丫的全是賭棍。。。:)),他們一人拿出100馬克的賭資放到桌上,然後開始拋硬幣(均勻的那種,抽象的,沒人出老千的那種 :)),規定如果是正麵,就算費馬贏一局,否則就算帕斯卡贏一局,累計積分,先贏20局的人贏走桌麵上所有的錢(200馬克)。於是兩棍一邊喝酒一邊說葷段子一邊擲硬幣(嗬嗬 ,傻不傻呀? 別見怪,學數學的都這德行。。。),賭的不亦樂乎。。。可是賭局進行到中間,老帕家裏突然來了個傭人說是出了急事,非要老爺立刻回去(估計是去年賭博贏得前沒全部報稅,IRS來人查賬了。。),於是不由分說,拉了老帕就要回去了。可是這是老帕正以17:13 的局麵領先呢,那桌上的200馬克賭資應該如何分攤呢?各人拿回自己原來的那100馬克顯然不可能的,因為帕斯卡拋老半天硬幣,都快贏了,怎麽能白幹了活呢?全部給他顯然費馬也不會肯,畢竟老帕你還沒有贏呢!當然這樣的問題難不到這兩位大數學家,他們很快找到了公平的解決辦法,那麽聰明的您呢? :)


人非聖賢,孰能無惑? ---- 孔老三


3. 古典概率的困惑。

古典概率發展到十八世紀的時候,已經可以解決許多有用的有趣的問題了,可以說已經成為一種有效的工具了。人們對於各種概率分布也積累了許多的感性認識,統計力學的初步發展給了概率理論直接的用武之地。這時候,各門應用學科對於已有的概率理論也提出了越來越多的要求,其中最重要的就是不再僅僅要考慮離散的對象,而也要分析連續的對象了。

前麵提到的概率函數的定義是針對離散對象的,那個時代的數學家們自然想要把他們推廣到連續的情形中去(更早的時候應該就有這樣的工作了,具體的曆史,我沒有去查資料,煩請大家自己注意這些細節)。如何擴展是合理的呢?這裏請允許我倒退一步,再來看看早期的古典概率對於概率有些什麽樣的基於直覺的定義(我在前麵文章中給出的,其實已經是經過“粉飾“的,有著強烈現代觀點烙印的定義,但是這些定義在他們共同的適用範圍內,是等價的。):

拉普拉斯的定義:(為了避免翻譯不當可能帶來的不便,請原諒我直接轉貼wiki上的原文)
The probability of an event is the ratio of the number of cases favorable to it, to the number of all cases possible when nothing leads us to expect that any one of these cases should occur more than any other, which renders them, for us, equally possible.
This definition is essentially a consequence of the principle of indifference. If elementary events are assigned equal probabilities, then the probability of a disjunction of elementary events is just the number of events in the disjunction divided by the total number of elementary events.

很快人們發現了這個定義的弱點,以John Venn 為代表的一些學者提出了frequencist' definition, 後者是類似於我前麵給出的“統計理解“的關於概率的描述。

拉普拉斯定義的核心就是數數,數有關對象的個數。比如說一個轂子六個麵,1,2,3,4,5,6。那麽扔下去,出現1的可能性是6個裏麵出一個,1/6。出現小於3的可能性有兩種,1和2,所以是2/6=1/3,等等。而對於一個連續的對象,比如說[0,1]區間,如果我們問,“‘隨機’的取一個實數,它小於1/2 的概率是多少?“ 這句話的一個類似的理解就是,這個實數總共有[0,1]這之間所有的數這麽多“種“選擇,合乎要求的有[0,1/2]之間的數這麽多“種“選擇,所以其概率應該是這兩種選擇的數目的比值(拉氏定義),當然這些數目都是無窮多種,但是直觀告訴我們,在這裏,線段的長度似乎是個不錯的度量,而且如果使用這個度量來取代原來的離散對象的個數,我們將會得到一個等於1/2的概率,也符合常識和直覺。對於更高維的結構,人們也就自然的用麵積,體積等等概念來替代長度。

這個時候的人們已經可以熟練的運用黎曼積分來計算各種圖形的麵積,周長等等。於是上述被推廣的拉氏概率定義也被廣泛的應用於計算之中。

一個著名的問題(Bertrand's paradox)被提了出來:
一個等邊三角形的外接圓上隨機的取一條弦,問這條弦的長度大於等邊三角形的邊長的概率是多少?
關於這個問題,大家可以自己思考,討論一下,看看都有些什麽樣的回答,詳細的介紹動態老大在以前的帖子中給出過鏈接,這裏我重複一下:
Bertrand's paradox

這個“悖論“的核心問題就在於這樣粗糙定義的概率概念沒有足夠清晰的刻畫“隨機“的含義,因而有了各種歧義。

十九世紀的時候,關於積分的理論,關於圖形或者更一般的集合的“麵積“等性質的研究都有了長足的發展。做出了核心貢獻的數學家之一叫做勒貝格。他所發展的積分和測度理論為現代概率論準備好了必要的工具和理論基石。
  
[ 打印 ]
閱讀 ()評論 (7)
評論
idiot94 回複 悄悄話 回複passenger101的評論:
your solution looks correct (in form), sorry I did not check the numbers in detail, but you can refer to this link :)
http://en.wikipedia.org/wiki/Problem_of_points
idiot94 回複 悄悄話 回複cohomology的評論:
很抱歉,我不怎麽來看,沒有看見您的帖子。您提出的問題很好,很有代表性,所以我想在這裏簡單回答一下,相信有些別的網友也會有類似的疑問。
這篇文章最著重要強調的一點,就是把抽象的概率和現實生活中間的“可能性”概念區分開來。一個數學上的概率空間,就是一個歸一化的正測度空間,這個測度不一定要是勒貝格測度,可以是任何測度,比如平凡測度(也就是說,隻有空集和全集可測,其他任何集合都不可測)。那樣的話,在這個平凡測度下,隻有兩個合法的事件(空集,全集),其他任何子集都是不可測的,都不是概率事件。因為他們在這個概率空間裏麵不能稱為事件,所以他們當然沒有相應的概率。
我們還可以定義其他許許多多各種各樣的概率空間,這些空間裏麵的可測集都隻是一些特定的集合,無論我們是否承認選擇公理,都會有一些集合,他們是不可測的,他們在這些個空間裏麵不是合法的概率事件。
這和我們現實生活中間的“事件”的概念是完全不一樣的,他們之間一般的並沒有一一對應的聯係。同樣的,數學上的概率,和現實生活中的“可能性”也是不同的概念,他們之間也不能一一對應。
不知道這麽說,對您理解這個問題是否有幫助?歡迎大家討論。
cohomology 回複 悄悄話 其實,概率的公理就是測度的公理的一個子集。 一個[0,1]上的子集是否Lebesgue 可測, 意味著它的概率是否存在。如果承認選擇公理,那麽是否意味著有的事件的概率是不存在的?
passenger101 回複 悄悄話 Very nice article. Studying....

Should 帕斯卡 got 1-(C(9,0)+C(9,1)+C(9,2))/2^9
登錄後才可評論.