納什在上大學時就開始從事純數學的博弈論研究,1948年進入普林斯頓大學後更是如魚得水。20歲出頭已成為聞名世界的數學家。特別是在經濟博弈論領域,他做出了跨世紀的貢獻,是繼馮·諾依曼之後最偉大的博弈論大師(之一)。他提出的“納什均衡”理論在非合作博弈理論中起著核心的作用。後續的研究者對博弈論的貢獻,都是建立在這一概念之上的。博弈論廣泛應用於經濟學、管理學、社會學、政治學、軍事科學等領域奠定了堅實的理論基礎。比如它可以用於目前伊朗與其他大國之間核武器談判;也可用於多個公司爭奪業務的產品市場;它還可用於指導政治活動,比如候選人試圖利用博弈論製定策略以擊敗對手。"策略性"這個詞很重要,因為從各種可能的方案中選擇,要充分考慮到其他人的行動或可能的行動方式,而且遵循"基本規則"的前提下,有目的行動和尋求自身的最大優勢。
納什對博弈論的貢獻是艱深的數學解釋,並且被馮·諾依曼認為有點瑣碎。它的產生離不開1944年馮·諾依曼與奧斯卡·摩根斯特恩合著的巨作《博弈論與經濟行為》。馮·諾依曼提出的標準型、擴展型和合作型博弈模型解的概念和分析方法,奠定了這門學科的理論基礎。對博弈問題的研究可以追溯到19世紀甚至更早。例如,1838年古諾(Cournot)研究的簡單雙寡頭壟斷博弈;1883年伯特蘭和1925年艾奇沃奇思報道了兩個寡頭的產量與價格壟斷;中國2000多年前孫臏利用博弈論方法幫助田忌賽馬取勝屬於早期博弈論的萌芽。帶有很大的偶然性,很不係統。
諾依曼的博弈論過於抽象,其應用範圍受到很大限製。正是在這個時候,非合作博弈——“納什均衡”應運而生了,它標誌著博弈論的新時代的開始!
納什不是一個按部就班的學生,他經常曠課,但他是一位天才的非凡人物,他廣泛涉獵數學王國的每一個分支,如癡如狂的學習拓撲學、代數幾何學、邏輯學、博弈論等。納什非常的自信,充滿咄咄逼人的學術野心。1950年夏天忙於應付緊張的考試,他的博弈論研究遺憾地中斷。殊不知這種暫時的“放棄”,使原來模糊、雜亂和無緒的若幹念頭,在潛意識的持續思考下,逐步形成一條清晰的脈絡,突然來了靈感!
這一年的10月,他驟感才思泉湧,妙筆生花。產生了一個最耀眼的亮點-日後被稱之為“納什均衡”的非合作博弈理論。寫出題為“非合作博弈”的長篇博士論文於1950年11月刊登在美國全國科學院每月公報上。納什的主要學術貢獻體現在1950年和1951年的兩篇論文之中(包括一篇27頁的博士論文)。應該感謝師兄戴維·蓋爾鼓勵和督促,納什曾遭到馮·諾依曼貶低幾天之後,告訴蓋爾已經將馮·諾依曼的“最小最大原理”(minimax solution)推到非合作博弈領域,找到了普遍化的方法和均衡點。蓋爾聽得很認真,他已經意識到納什的思路比馮·諾伊曼的合作博弈的理論更有適用性,對其嚴密優美的數學證明極為讚歎。蓋爾建議他馬上整理出來發表,以免被別人捷足先登。納什這個初出茅廬的小子,不知道競爭的險惡。蓋爾充當了他的“經紀人”,代為起草致科學院的短信,係主任列夫謝茨更是大力推薦給科學院。納什一生的文章不多,但都是精品中的精品。
要了解納什的貢獻,首先要知道什麽是非合作博弈問題。現在幾乎所有的博弈論教科書上都會講“囚犯的兩難處境”的例子,每本書上的例子都大同小異。
博弈論確切地說是運籌學的一個分支。這一理論是從棋弈、撲克和戰爭等帶有競賽、對抗和決策性質的問題中借用的術語,聽上去有點玄奧,實際上卻具有重要現實意義。博弈論大師看經濟社會問題猶如棋局,常常寓深刻道理於遊戲之中。從我們的日常生活中的凡人小事入手,娓娓道來。話說有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人,斯卡爾菲絲和那庫爾斯,並從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱是先發現富翁被殺,然後隻是順手牽羊偷了點兒東西。於是警方將兩人隔離,分別關在不同的房間進行審訊。由地方檢察官分別和每個人單獨談話。檢察官說,“由於你們的偷盜罪已有確鑿的證據,所以可以判你們一年刑期。但是,我可以和你做個交易。如果你單獨坦白殺人的罪行,我隻判你三個月的監禁,但你的同夥要被判十年刑。如果你拒不坦白,而被同夥檢舉,那麽你就將被判十年刑,他隻判三個月的監禁。但是,如果你們兩人都坦白交代,那麽,你們都要被判5年刑。”斯卡爾菲絲和那庫爾斯該怎麽辦呢?他們麵臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴,結果是大家都隻被判一年。
但是由於兩人處於隔離的情況下無法串供。所以,按照亞當·斯密的理論,每一個人都是從利己的目的出發,他們選擇坦白交代是最佳策略。因為坦白交代可以期望得到很短的監禁———3個月,但前提是同夥抵賴,顯然要比自己抵賴要坐10年牢好。這種策略是損人利己的策略。不僅如此,坦白還有更多的好處。如果對方坦白了而自己抵賴了,那自己就得坐10年牢。太不劃算了!因此,在這種情況下還是應該選擇坦白交代,即使兩人同時坦白,至多也隻判5年,總比被判10年好吧。所以,兩人合理的選擇是坦白,原本對雙方都有利的策略(抵賴)和結局(被判1年刑)就不會出現。這樣兩人都選擇坦白的策略以及因此被判5年的結局被稱為“納什均衡”,也叫非合作均衡。因為,每一方在選擇策略時都沒有“共謀”(串供),他們隻是選擇對自己最有利的策略,而不考慮社會福利或任何其他對手的利益。也就是說,這種策略組合由所有局中人(也稱當事人、參與者)的最佳策略組合構成。沒有人會主動改變自己的策略以便使自己獲得更大利益。“囚徒的兩難選擇”有著廣泛而深刻的意義。個人理性與集體理性的衝突,各人追求利己行為而導致的最終結局是一個“納什均衡”,也是對所有人都不利的結局。他們兩人都是在坦白與抵賴策略上首先想到自己,這樣他們必然要服長的刑期。隻有當他們都首先替對方著想時,或者相互合謀(串供)時,才可以得到最短時間的監禁的結果。
“納什均衡”首先對亞當·斯密的“看不見的手”的原理提出挑戰。按照斯密的理論,在市場經濟中,每一個人都從利己的目的出發,而最終全社會達到利他的效果。這位經濟學聖人在《國富論》中的名言:“通過追求(個人的)自身利益,他常常會比其實際上想做的那樣更有效地促進社會利益。”從“納什均衡”我們引出了“看不見的手”的原理的一個悖論:從利己目的出發,結果損人不利己,既不利己也不利他。兩個囚徒的命運就是如此。從這個意義上說,“納什均衡”提出的悖論實際上動搖了西方經濟學的基石。因此,從“納什均衡”中我們還可以悟出一條真理:合作是有利的“利己策略”。但它必須符合以下黃金律:按照你願意別人對你的方式來對別人,但隻有他們也按同樣方式行事才行。也就是中國人說的“己所不欲勿施於人”。但前提是人所不欲勿施於我。其次,“納什均衡”是一種非合作博弈均衡,在現實中非合作的情況要比合作情況普遍。所以“納什均衡”是對馮·諾依曼和摩根斯特恩的合作博弈理論的重大發展,甚至可以說是一場革命。
從“納什均衡”有普遍意義。“囚徒的兩難處境”適用於價格戰、軍奮競賽、汙染等等。一般的博弈問題由三個要素所構成:即局中人(players)又稱當事人、參與者、策略等等的集合,策略(strategies)集合以及每一對局中人所做的選擇和贏得(payoffs)集合。其中所謂贏得是指如果一個特定的策略關係被選擇,每一局中人所得到的效用。所有的博弈問題都會遇到這三個要素。
純數學家們對“納什均衡”不以為然,而對他在代數幾何中的工作印象更加深刻。隨著時間推移,他開創的遊戲理論方法早已廣泛應用於社會科學,特別是在經濟學中。博弈論發明之前,經濟學家討論了買家和賣家,如糧食和其他大宗商品市場基於賬戶動力學的競爭性市場。即是供應和需求的關係,遵循阿爾弗雷德 · 馬歇爾(和其他產生於發達國家)的理論。經濟學家采用整體經濟的運作理論: 凱恩斯主義經濟學。但這些理論麵對多家公司競爭的複雜情況無可奈何,比如企業監管方式,或拍賣中價格決定辦法。
馮 · 諾依曼和摩根斯坦為分析這種複雜情況提出了博弈論理論框架。成功地揭示"平衡"的存在,盡管在相對狹窄範圍內的相互作用。所謂零和遊戲,一個人的收獲和另一個人的損失(兩人打撲克是零和全的遊戲,拋硬幣的正和反)。在大量競爭對手之間的市場,馮 · 諾依曼理論不能回答:怎樣才能積極地獲取經濟盈餘?
這是納什的切入點。他通過球賽(遊戲)先定義一個特定的解決方案 — — 一個標記每個球員製定最好的戰略,但同時必須考慮到其他球員用到了什麽方案。其實納什采用了荷蘭數學家 L.E.J.布魯爾早年提出的一個深奧的數學理論,布魯爾的"不動的點定理"。納什平衡可以根據球員數目和選擇方式的數目,計算任何最佳的方式。
盡管表麵看來,納什貢獻的原創性並不高。應用布魯爾理論,解決了馮 · 諾依曼沒有超越的問題。納什貢獻的重要性在於"納什均衡"的想法,亦被稱為最優反應平衡。經過長期考驗,納什均衡成為經濟學教科書闡述供給和需求曲線的經典理論。
我感歎呀,1950年10-11月寶貴的一個月,納什寫出"納什均衡",完成了他一生的全部任務。接下來就是發瘋似的生病,然後靜候諾貝爾獎。啟示:我等凡人也不妨瘋狂工作一個月,找到自己的靈感,並寫出一個啥樣的理論,然後享用一輩子。