個人資料
正文

趣味數學(八) 吃驚和信息

(2013-04-17 06:27:15) 下一個

先說一說吃驚的度量

話說你和朋友一塊去打靶,各自對著靶子打了一槍。你朋友是職業神槍手而你是新手。報靶員說,你朋友正中靶心,你們笑笑,不以為然。報靶員接著說,你也正中靶心,你們大吃一驚。

為什麽同樣正中靶心,反應會不一樣?

你朋友正中靶心,大家不吃驚,因為他是神槍手,打中的概率高,中了有何奇怪?反之,你初次摸槍,能挨上靶邊就不錯了,居然能正中靶心,自然出乎意料。也就是說,你打中靶心的概率很小,居然發生了,吃驚度很高。

這就牽涉到吃驚的度量,也就是信息量。直觀地說,越讓人吃驚的事件信息量也越大。如何去度量一個事件的吃驚度或者信息量呢?

我們希望有一個數學表達式S(p)來度量一個隨機事件A的吃驚度,這裏p是A發生的概率。吃驚度S(p)在數學上到底該長成什麽樣子呢?

我們先看看,吃驚度S(p)都應該滿足哪些條件?

一個事件如果肯定發生,吃驚度應該為零,所以有條件1:S(1)=0。

如果事件A發生的概率為p,事件B發生的概率為q,並且p>q,事件A和B,哪個吃驚度大些?應該是B吧?所以有條件2:S(p)是p的遞減函數。

如果p和q相差很小,S(p)和S(q)也應相差很小,所以又有條件3:S(p)是p的連續函數。

最後,如果A和B相互獨立,那麽A和B同時發生的概率就是pq,其吃驚度為S(pq)。S(pq)-S(p)是什麽意思?S(pq)是A和B同時發生帶來的吃驚度,S(p)是A發生的帶來的吃驚度,因為A和B相互獨立,S(pq)-S(p)應該是B的吃驚度,所以又有S(pq)-S(p)=S(q),也即是條件4:S(pq)=S(p)+S(q)。

好了,根據這四個條件,通過簡單的數學推導,我們可以得出S(p)的數學表達式為:S(p)=-Clog(p),其中C為常數,通常取之為1,對數的底通常取做2,這時的單位叫作BITS。所以有S(p)=-log(p)。換句話說,如果隨機事件A發生的概率為p,它的吃驚度就是-log(p)=log(1/p)。如果P=(p_1,p_2,...,p_n)是一個概率分布,則H(P)=-p_1log(p_1)-p_2(log(p_2)-...-p_nlog(p_n)=p_1log(1/p_1)+p_2log(1/p_2)+...+p_nlog(1/p_n)是整個分布的平均吃驚度,稱之為分布P=(p_1,p_2,...,p_n)的熵,用H(P)=H(p_1,p_2,...,p_n)表示。

熵是信息論中最基本的概念,它刻畫了一個概率分布的平均吃驚度。在一個有N種可能結果的概率分布中,什麽情況下熵最大?經過數學推導,可以得知,當所有結果等可能時,其熵最大。

先看一個簡單的猜數遊戲:你隨便從1到2^N個整數中間想好一個數,我來猜你想的是哪個數。如何猜?我可以想法問你一些問題,你隻需如實回答是或者否。我們應該如何設計問題,使得盡可能少的提問就猜中答案?

比方說,N=5,也就是你隨便從1,2,。。。,32中想好一個數,我需要問幾個問題,就把你想的那個數猜到呢?這個問題,實際上是“巧用天平”的簡化情況:在那裏問題有三種答案:左重,右重,或左右平衡。因此那裏的問題略顯複雜一些了。

為什麽要提問題?就是想獲得信息,而熵正可用來衡量信息的多少。我們每問一個問題,無非有兩種可能的答案,是與否。什麽情況下熵最大?如果兩種答案等可能。如何設計這種問題使得是否兩種答案等可能?

可用等分法。比如第一次可問:你想的數小於或等於16。如答案是是,你可繼續等分1,2,。。。,16然後同法炮製下一個問題。如答案是否,你可繼續等分17,18,。。。,32繼續問:你想的數小與或等於24。依此類推,隻需提問五次,你就可以猜中答案了。當然,你提的問題隻需等分兩種可能,比如也可問,你想的是偶數。等等。

為什麽需要五次?那是因為你想的那個數是在1,2,。。。,32之中的一個,因此其概率分布為P=(1/32,1/32,。。。,1/32),其熵為H(P)=5。分布的熵給出了提問次數的下界。如果每次問題兩種答案等可能,分布就是Q=(1/2,1/2),其熵就是H(Q)=1了;也就是每次提問,獲得熵為1的信息量。提問五次,就可獲得總共熵為5的信息量了。

有人會問,假如我直接問:你想的數是5。而你回答是,不是一次就夠了嗎?是的,如運氣好,是有可能。但是如果靠運氣提問,你平均問的次數應該要超過五次。

假設概率分布P=(p_1,p_2,...,p_n)有n種可能,概率分布Q=(q_1,q_2,...,q_m)有m種可能,它們的聯合分布就有m*n種可能了。聯合分布的熵用H(P,Q)表示。知道了P和Q的聯合分布,我們就可定議條件熵H(P|Q)=H(P,Q)-H(Q)和兩種分布P和Q之間的相互信息量I(P;Q)=H(P)-H(P|Q)=H(P)+H(Q)-H(P,Q)了.

兩種分布P和Q之間的相互信息量I(P;Q)到底是什麽意思,以後有機會再接著講。 
 

[ 打印 ]
閱讀 ()評論 (2)
評論
朝霞滿天 回複 悄悄話 給藍天上好茶。
碧藍天 回複 悄悄話 佩服呀!真佩服!
登錄後才可評論.