一蟲

蒿草之下, 或有蘭香;
個人資料
  • 博客訪問:
正文

信息論 (ZT)

(2007-09-26 14:36:21) 下一個

信息論

information theory

  研究信息傳輸和信息處理係統中一般規律的新興學科。核心問題是信息傳輸的有效性和可靠性以及兩者間的關係。學科內容包括信息熵、信源編碼、信道編碼、信道容量、信息失真率理論、信號檢測和估計等。

  形成和發展  信息論形成一門獨立的學科,公認是以1948年美國數學家C.E.香農發表著名論文《通信的數學理論》為標誌的。香農用負熵作為信息的度量,成功地解決了信息傳輸的基本問題,為信息論奠定了基礎。50年代,人們一方麵在理論上闡明和推廣香農的研究成果,把信息論置於嚴謹的數學基礎上,另一方麵發展了糾錯碼的理論和應用。60年代,在此基礎上進一步發展,建立了信源編碼的失真率理論,研究了最優信號集,發明了卷積碼的序列譯碼和維特比譯碼技術。70年代,衛星通信和計算機技術的迅速發展給信息論以新的動力。各種多用戶通信模型的信息傳輸理論獲得了迅速發展。信息論已經發展成為一門擁有眾多分支的新興學科。

  信息量  信息的度量是信息論研究的基本問題之一。對於應用範圍如此廣泛的信息提出一個統一的度量是困難的。美國數學家C.E.香農在1948年提出信息熵作為信息量的測度。根據人們的實踐經驗,一個事件給予人們的信息量多少,與這一事件發生的概率(可能性)大小有關。一個小概率事件的發生,如“唐山發生七級以上大地震”使人們感到意外,它給人們的信息量就很多。相反一個大概率事件的出現,如“12月15日北京未下雪”給人們的信息量就很少。因此,用I(A)=-logP(A)〔P(A)表示事件A發生的概率〕來度量事件A給出的信息量,稱為事件A的自信息量。若一次試驗有M個可能結果(事件),或一個信源可能產生M個消息(事件),它們出現的概率分別為p1,p2,…,pM ,則用Image:523-01_5.jpg來度量一次試驗或一個消息所給出的平均信息量。當對數取 2為底時,單位為比特;當對數取e為底時,則單位為奈特。H的表達式與熵的表達式差一個負號,故稱負熵或信息熵。

  信息傳輸模型  信息傳輸係統主要由信源、信道和信宿組成,下圖為信息傳輸係統的基本模型。信源是產生消息的係統。信宿是接受消息的係統,信道則是傳輸消息的通道。圖中編碼器、譯碼器的作用是把消息變換成便於傳輸的形式。

Image:xinxil01.jpg

  信源編碼  信源是產生消息(包括消息序列)的源。消息通常是符號序列或時間函數。例如電報係統中的消息是由文字、符號、數字組成的報文(符號序列),稱為離散消息。電話係統中的消息是語聲波形(時間函數),稱為連續消息。消息取值服從一定的統計規律。因此,信源的數學模型是一個在信源符號集中取值的隨機變量序列或隨機過程。信源編碼器將消息變換為一個數字序列(通常為二進製數字序列)。在離散情形,若信源產生M個可能消息,它們出現的概率分別為p1,p2,…,pM,每個消息由N個信源符號組成,便可取信源編碼與數字序列一一對應。第i個消息對應的數字序列長(數字個數)為li,li相等的稱等長編碼,否則稱變長編碼。定義Image:524-01_5.jpg為編碼速率,它表征平均每個信源符號要用多少個數字來表示。若取信源譯碼器為信源編碼器的逆變換器,則在無噪信道(信源編碼器的輸出即為信源譯碼器的輸入)情況下,消息可以正確無誤地傳送。這時信源編碼問題是要找出最小的速率R及其相應的編碼。已經證明,對於相當廣泛的信源類,當N可以任意大時這個最小極限速率Image:524-02_5.jpg稱為信源的熵率,是信源的一個重要參數。對於固定的N,最優編碼就是赫夫曼編碼。在連續消息的情形,信息編碼器不可能使消息與數字序列一一對應,因此譯碼也不是編碼的逆變換。通常的方法是先對連續消息進行采樣和量化,變為離散消息,再將離散消息變換為數字序列。信源譯碼器先將數字序列逆變換為離散消息,再用內插法求得連續消息。這樣一來,即使在無噪信道的情況下,發送消息與接收消息之間也會產生誤差,稱為消息失真。可以用一個非負函數d(u,v)來度量消息u,v之間的失真大小。這時信源編碼問題是在保證平均失真不超過給定允許極限D 的條件下找出最小速率R 及其相應編碼。求解這一問題導致熵推廣到失真率函數,信源編碼的失真率理論因而得到發展。

  信道編碼  信道是傳輸信息的媒質或通道,如架空明線、同軸電纜、射頻波束、光導纖維等。有時為研究方便將發送端和接收端的一部分如調製解調器也劃歸信道。信息論把信息傳送過程中受各種幹擾的影響都歸入信道中考慮。根據幹擾的統計特性,信道有多種模型。最簡單的是離散無記憶恒參信道,它可以用信道入口符號集X、出口符號集Y和一組條件概率P(y|x)(x∈X,y∈Y)來描述。若信道輸入信號x=(x1,x2,…,xN),則相應的輸出(受擾)信號y=(y1,y2,…,yN)出現的概率為P(y|x)=Image:524-20.jpg信道編碼器將數字序列每K個一組變換為字長N 的信號(碼字),稱為分組編碼。若數字和信道符號都是二進製的(可用0,1表示),則R=K/N 定義為編碼速率,它表明每個信道符號表示多少個數字。N-K 稱為編碼冗餘度。信道編碼(糾錯編碼)的基本思想就是增加冗餘度以提高可靠性。更確切地說,信道譯碼器可以利用編碼冗餘度將受擾信號變換為正確的發送數字序列。重複編碼乃一簡例。信道編碼器將輸入數字重複三次, 如將01011變換為000111000111111。信道譯碼器可用門限譯碼,即先將輸入譯碼器的信道符號每三個一組地相加,再將結果逐個與閾值 2比較,小於閾值2的譯為0,否則譯為1。這樣若受擾信號010110100011011雖然錯了 5個符號,但譯碼仍為01011與發送數字序列完全相同。信息論得出的重要結論是:對於一個有噪信道,隻要在信道編碼中引入足夠而有限的冗餘度,或等價地說編碼速率足夠小,就能通過信道漸近無誤地傳送消息。更確切地說,對充分長的數字序列,其接收錯誤概率可以任意小。信道編碼問題是要找出使信道漸近無誤地傳輸消息所能達到的最大編碼速率R和相應的編碼。已經證明,對於離散無記憶恒參信道,這個最大極限編碼速率為Image:524-03_4.jpg,它是對X上一切概率分布 p取極大值。p為信道轉移概率(條件概率),

Image:524-04_4.jpg

稱為交互信息;C 稱為信道容量,是信道的重要參數。

  信息傳輸定理  對圖中的信息傳輸係統,若啛/TS<C/TC,其中啛為信源的熵率,C為信道容量,TS和TC分別為信源符號和信道符號的持續時間,則一定存在編碼和譯碼使消息可通過信道漸近無誤地傳送。反之,若啛/TS>C/TC,則不存在這樣的編碼和譯碼。

  信息論研究的主流始終是圍繞這個基本定理展開的,隻是信源和信道的模型更複雜而已。上述定理是實際存在的,但沒有給出實現這一理想傳輸的具體編碼方法。尋找實現這一理想傳輸的編碼和譯碼方法則是編碼理論研究的目標。雖然這一目標至今尚未達到,但信息論的研究成果對設計新通信係統的作用是人們所肯定的。

  信息論的應用  信息論的意義和應用範圍已超出通信的領域。自然界和社會中有許多現象和問題,如生物神經的感知係統、遺傳信息的傳遞等,均與信息論中研究的信息傳輸和信息處理係統相類似。因此信息論的思想對許多學科如物理學、生物學、遺傳學、控製論、計算機科學、數理統計學、語言學、心理學、教育學、經濟管理、保密學研究等都有一定的影響和作用。另一方麵,由於借助負熵定義的信息量隻能反映符號出現的概率分布(不肯定性),不能反映信息的語義和語用層次。一篇重要的報告和一篇胡說亂道的文章可以具有同樣的信息,這顯然不符合常識。因此現階段信息論的應用又有很大的局限性。把信息的度量推廣到適合於語義信息和語用信息的情況,曾經做過許多嚐試。但至今還沒有顯著的進展。


信息論

information theory

  研究信息的基本性質和度量方法以及信息的獲得、傳輸、存貯、處理和交換等一般規律的科學。信息論作為一門科學理論,發端於通信工程。它具有廣義和狹義兩個概念:狹義信息論是應用統計方法研究通訊係統中信息傳遞和信息處理的共同規律的科學,即研究概率性語法信息的科學;廣義信息論是應用數學和其他有關科學方法研究一切現實係統中信息傳遞和處理、信息識別和利用的共同規律的科學,即研究語法信息、語義信息和語用信息的科學。人們對於信息的認識和利用,可以追溯到古代的通訊實踐。中國古代的“烽燧相望”和古羅馬地中海諸城市的“懸燈為號”,可以說是傳遞信息的原始方式。隨著社會生產的發展,科學技術的進步,人們對傳遞信息的要求急劇增加。到了20世紀20年代,如何提高傳遞信息的能力和可靠性已成為普遍重視的課題。美國科學家N.奈奎斯特、德國K.屈普夫米勒、前蘇聯A.H.科爾莫戈羅夫和英國R.A.賽希爾等人,從不同角度研究信息,為建立信息論作出很大貢獻 。1948年 , 美國數學家C.E.香農出版《通信的數學理論》,1949年發表《噪聲中的通信》,從而奠定了信息論的基礎。20世紀70年代以後,隨著數學計算機的廣泛應用和社會信息化的迅速發展,信息論正逐漸突破香農狹義信息論的範圍,發展為一門不僅研究語法信息,而且研究語義信息和語用信息的科學。它的建立是人類認識的一個飛躍。世界上各種事物都是充滿矛盾不斷發展的,物質的運動主要是靠內部矛盾運動所產生的能量,而事物之間的普遍聯係則靠的是信息。信息是關於事物的運動狀態和規律,而信息論的產生與發展過程,就是立足於這個基本性質。信息論迅速滲透到各個不同學科領域,但還不夠完善。為了適應科學技術發展的需要,迎接信息化社會的到來,一門新的科學正在迅速興起,這就是廣義信息論,或者叫做信息科學。信息科學是由信息論、控製論、計算機、人工智能和係統論等相互滲透、相互結合而形成的一門新興綜合性學科。信息科學登上現代科技舞台,與能量科學、材料科學鼎足而立 ,將為科學技術的發展作出貢獻。


信息論是運用概率論數理統計的方法研究信息信息熵通信係統、數據傳輸、密碼學數據壓縮等問題的應用數學學科。

信息論將信息的傳遞作為一種統計現象來考慮,給出了估算通信信道容量的方法。信息傳輸和信息壓縮是信息論研究中的兩大領域。這兩個方麵又由信息傳輸定理信源-信道隔離定理相互聯係。

香農(Claude Shannon, 1916-2001)被稱為是“信息論之父”。人們通常將香農於1948年10月發表於《貝爾係統技術學報》上的論文《A Mathematical Theory of Communication》(通信的數學理論)作為現代信息論研究的開端。這一文章部分基於哈裏·奈奎斯特拉爾夫·哈特利先前的成果。在該文中,香農給出了信息熵(以下簡稱為“熵”)的定義:

H = - sum_i p_i log p_i

這一定義可以用來推算傳遞經二進製編碼後的原信息所需的信道帶寬。熵度量的是消息中所含的信息量,其中去除了由消息的固有結構所決定的部分,比如,語言結構的冗餘性以及語言中字母、詞的使用頻度等統計特性。

信息論中熵的概念與物理學中的熱力學熵有著緊密的聯係。玻耳茲曼吉布斯在統計物理學中對熵做了很多的工作。信息論中的熵也正是受之啟發。

互信息(Mutual Information)是另一有用的信息度量,它是指兩個事件集合之間的相關性。兩個事件X和Y的互信息定義為:

I(X, Y) = H(X) + H(Y) - H(X, Y)

其中 H(X, Y) 是聯合熵(Joint Entropy),其定義為:

H(X, Y) = - sum_{x, y} p(x, y) log p(x, y)

互信息與多元對數似然比檢驗以及皮爾森χ2校驗有著密切的聯係。



信息概念、信息定義

信息(台灣稱作資訊或訊息)是一種消息,通常以文字或聲音、圖象的形式來表現,是數據按有意義的關聯排列的結果。信息由意義和符號組成。

文獻是信息的一種,即通常講到的文獻信息。

信息是事物屬性標識的集合——信息的新定義DY,“屬性+種差”的標準邏輯DY。


Deng's改造(創造)的新信息定義

逆Shannon信息定義:信息是確定性的增加;

Wiener信息定義的逆:信息就是信息,信息是物質、能量、信息的標示。

鄧宇們提出的”信息”概念定義 “信息是事物及其屬性標識的集合”的信息實質定義。


仙農信息定義逆:將著名的否定式的維納和仙農的“信息定義”換成“肯定式”成為仙農(香農)信息定義逆1——仙農信息定義的逆定義1:

信息是確定性的增加。

或仙農信息逆定義2:

信息是確認肯定性(確定性)的東西。或


信息是肯定性的確認。

對應公式

Ir=-logPi+1 或

Ir‘=log((N-ni)/N)=log(nq/N)=logPq

即仙農信息,由形式上的負熵——不確定度,變換成形式上的正熵補——確定度。見原否定式的Shannon信息定義:信息是消除隨機不定性的東西。公式

I=-logPi=-log((ni)/N) =-(logni-logN)=logN-log ni

=-log((N-nq)/N)=1-1- logPi=1-(1+ logPi)=(1- logPi) –1

維納信息定義逆:信息是物質、能量、信息的logo(標示,表示、表號——表現符號、信號、標號,表征、標識)。或“信息是與物質、能量、信息及屬性相伴隨的標識(logo,標示)”;或“信息就是信息,是物質、能量、信息的標識(表征、……)”。


鍾義信定義的小縮:信息是事物變化狀態的方式。

[編輯]參考文獻摘自《醫學信息》2006,鄧宇,信息定義的標準化 取自"http://wiki2.keyin.cn/index.php/%E4%BF%A1%E6%81%AF"


應用

信息論被廣泛應用在:

外部鏈接

補充

信息論是運用概率論數理統計的方法研究信息、信息熵通信係統、數據傳輸、加密學、數據壓縮問題應用數學學科

信息論將信息的傳遞作為一種統計現象來考慮,給出了估算通信信道容量的方法。信息傳輸和信息壓縮是信息論研究中的兩大領域。這兩個方麵又由信息傳輸定理、信源-信道隔離定理相互聯係。

香農(Claude Shannon, 1916-2001)被稱為是“信息論之父”。人們通常將香農於1948年10月發表於《貝爾係統技術學報》上的論文通信數學原理》作為現代信息論研究開端。這一文章部分基於哈裏·奈奎斯特和拉爾夫·哈特利先前的成果。在該文中,香農給出了熵的定義:

H = - sum_i p_i log p_i

這一定義可以用來推算傳遞經二進製編碼後的原信息所需的信道帶寬。熵的概念量度的是消息中所含的信息量,而去除了消息固有結構所決定的部分,比如,語言結構的冗餘性以及語言中字母、詞的使用頻度等統計特性。

信息論中熵的概念與物理學中的熵有著緊密聯係玻耳茲曼吉布斯統計物理學中對熵做了很多的工作信息論中的熵也正是受之啟發。

互信息(Mutual Information)是另一有用的信息度量,它是指兩個事件集合之間的相關性。兩個事件X和Y的互信息定義為:

I(X, Y) = H(X) + H(Y) - H(X, Y)

其中 H(X, Y) 是共有熵(Joint Entropy),其定義為:

H(X, Y) = - sum_{x, y} p(x, y) log p(x, y)

互信息與多項式對數可能性比率校驗以及皮爾森的χ2校驗有著密切的聯

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.