--“囚徒困境”博弈的啟示
榕城老應
5。君子之道
Nowak,Sasaki,Taylor,Fudenberg等人在2004年《自然》期刊上發表一篇論文“Emergence of cooperation and evolutionary stability in finite populations"帶來了新的希望。他們認為進化中的個體不需要麵對整個無窮的世界,而僅僅是有限的群體,所以ESS的結果並不是TFT不可逾越之壁。其次,用一個0到1之間的參數k來表示競爭的收益對自然選擇影響的程度,0代表著毫無影響,1是唯一的影響,就像在ESS中一樣。他們證明了TFT可以在全是惡魔AllD有限群體的地獄中進化產生,合作這時就在自然中湧現。
論文證明了當這群體隻有兩個個體時,AllD與TFT直接對決,TFT不占優勢。但個體數大於三,有一定的概率變異產生的TFT能夠入侵AllD群體。當群體中個體數大到幾百時,入侵速度也隨之變大。當自然選擇壓力k較大,隨著群體進一步加大到幾千,入侵速度則隨之回落直至入侵被消滅而阻止了。
這個結果十分有意思。它告訴我們:禮尚往來的TFT與隻想占便宜的AllD兩個相處不占上風。隨著群體人數增加,即使原來大家全是鬥雞似的不合作,禮尚往來的風氣終將會占了上風,大家都走向合作。在競爭壓力不是那麽大的小鎮鄉村,合作容易產生。在競爭壓力大的大城市裏,人際關係趨向冷漠不大合作。對於千人的大公司,如果將業績作為升職去留唯一考量的標準,人際關係將會空前的緊張,友善合作就會輸於冷漠自私。這一點非常符合人們的經驗。
小地方人們抬頭不見低頭見。人數不是太少,你不和我合作有人和我合作。你占了合作人的便宜,大家很快又會遇上,就沒那麽客氣了。所以這種情況有利於合作是可以想象的。有沒有比較具體的數字結果?有。例如,R=3,T=5,P=1,S=0時,在三個人的情況,如果大家都有十次以上交往,合作就易於占上風。四個人,六次以上。很多人,三次以上就足以讓禮尚往來TFT蔚然成風。
好了,讓我們總結一下訖今為止研究的結果。自然選擇的壓力決定了采用什麽策略的個體能夠在囚徒困境的環境下生存。當個體沒有記憶能力時,善良的AllC群體必然被無情的惡魔AllD入侵所淘汰,留下一個絕不合作個個互鬥的冷漠世界。當個體擁有一點記憶能夠記住對手的表現時,隻要環境不是特別惡劣,友好又具有報複能力的個體在競爭中因為相互合作又能對抗AllD而贏出。它能入侵AllD的群體,讓合作的現象湧現。它能保護AllC與之共榮,從而使得單純的善良也有了生存的空間。
×-×-×-×-×
我的朋友說:“你所說的純粹是從利益考慮,TFT不外乎威脅利誘,但那是小人之道。君子喻於義,不肖為之!” 要怎麽喻於義呢?孔子在《論語·憲問》裏說:“君子道者三,我無能焉,仁者不憂,知者不惑,勇者不懼。” 這純粹是人品上的修煉了。追求的目標是和利益考量有著不同。這個人品上的追求能帶來利益嗎?
“仁者不憂”,練到內心無比仁厚,不在乎你占我點便宜。“知者不惑”,心裏明白懶得隨你起舞。“勇者不懼”,犧牲都不怕,你又能對我怎麽樣?這幾乎是AllC了,最好的合作夥伴嘛!自然界生物進化,但凡有那麽一點智慧都首先用於識別敵我。對於人來說,行為難測,合同不足為持,唯有品性比較穩定。這好人修煉到一眼就能辨認出來,不怕吃虧,經得住考驗,追求的不是利益而是怎麽做人。這就可以成為可以信賴的合作夥伴,關鍵時刻不需要費心防範的真正朋友,永遠不用擔心背叛的肝膽同誌。凡是真心想合作追求雙贏的人都會引為同道與之合作。不需要花費代價來猜疑防範,全力爭取最大收益的策略就是了。結果雙方都收益巨大。尤其是大道盛行,有勢者上位者之所鍾,朋黨輿論之所向,這個君子得到的好處可比小人要大的多了。
既然當君子有這麽大的好處,那模仿君子的特征宣稱標榜自己也是君子就是一個廉價的策略了。這就產生如何辨識真君子與偽君子的問題,在策略中就要考慮防範偽君子帶來的變數。這不僅在人際關係,在生物界中欺騙與防範的博弈考慮也經常可見。在政治鬥爭,商業競爭,國家衝突等方麵,心智成熟的博弈者絕不會輕信這一類易於裝扮和廉價反悔的宣言,他們寧願相信對方實在的利益得失作為自己策略風險的抵押。
×-×-×-×-×
Brembs在1996年OIKOS一篇Mini-Review論文中描述了生態環境的複雜性。一個群體如果有些孤僻苛刻的個體STFT(首先不合作,然後照抄對方行為)存在,那麽具有加倍寬容的個體TF2T(連續受背叛兩次才還擊一次)在這個群體中要勝過嚴格的TFT。這是因為收益V(TF2T|STST)>V(TFT|STFT)。TF2T和STFT結合就像一個唱紅臉一個唱白臉的組合,搞得單純的TFT無所適從。用這個思路不難證明其他的情況。例如,隻有TFT和善良的AllC的群體,看不出它們積分的不同。當有惡魔AllD入侵時,如果AllC較少,AllD被TFT壓製打擊成不了氣候。如果濫好人AllC很多,養虎遺患,AllD得到充分營養增長積分可以勝過TFT,以致侵吞了整個群體。
朋友嗤之以鼻說:“君子不言利。講的是殺身成仁,舍身取義的追求。與你說的是不同的境界。君子處世隻憑良心,不知道算計也不想算計。”
生物在比較簡單低級時,所有的行為策略都建立在本能反應上。隨著進化複雜更廣泛合作的需要發展出“感情”的追求,必要時它可以壓製本能的短視反應,以保護家庭,血緣,集體,種族,國家的利益。在更高層次和統計意義上有益於個體。本能和情感的層次上可能的策略都在嚴酷的生存競爭中經曆過篩選,收益累積較少策略的物種和族群在選擇的壓力下被消滅,留下對於生存有利的包括TFT和它類似的策略。幸全下來的生物按本能和情感反應行事已經是使用在大多數情況下最好的策略。
自從亞當和夏娃吃了智慧果,有了自我意識以後,人們企圖掌控自己的命運,用大腦來對自己的行動決策,以便麵對更為複雜,更加長遠的博弈。經過千百年時間的沉澱那些對生存有利的,特別是對集體有利的策略思想都以格言,傳統,道德規範流傳下來,形成一個遠比現實世界要簡單的價值體係。在這價值體係追尋對現實世界問題的答案通常要比近視的勢利算計有更大的長期收益,也更容易決斷。
人們依照習慣,簡單的算計或在這價值體係追尋答案。社會的合作利益形成的文化促使人們認為依習慣行事的人是單純或愚魯的,能算計的人是精明和短視的,有原則的人是高尚和固執的。盡管這不過是跟據不同的方法選擇了他們的策略。
人品的追求和社會的道義是不是可以代替博弈的思考,成為促進合作有益於集體和個人的最佳策略依據?
在良性環境對大部分情況,是。畢竟這價值體係在進化中贏出。對一些情況,不是。畢竟他們是兩個不同的目標。
“以德報怨”行得通嗎?這樣額外的寬容,不外乎想爭取比較頑劣的對手合作,那要看你有沒那實力了。在八十年代美國政治科學有一些論文對策略的穩定性討論研究。依進化博弈論的觀點,這隻有你在生存競爭的博弈積分勝過對方時,才有這個餘力行這王道。中國近代史,現代史在與列強交鋒時層出不窮的應對失措就沒明白這個道理。弄得該討回公道時放棄權利。該奮力一戰時依此退卻。
以德報怨,無論善惡的夥伴或者對手,人人都是真心喜歡的。無數文藝作品都謳歌讚美這美麗的品性。希望這心靈雞湯能夠營養感動著遇見的每一個人。但當這善人的反製力量不足以威懾對手的背叛決策時,他的命運就不在自己的手中了,而在對方善惡之念中。善則幸甚,惡則怨命。
有人把這君子之道誇為“仁者無敵”,那是過了點。連孔老先生都說:“我無能焉”,尤其是在亂世。其實聖人處世並沒有那麽迂腐。《論語》中一段對答就明白如話,“或曰:‘以德報怨,何如?’子曰:‘何以報德?以直報怨,以德報德’。” 聖經對這種情況是直接了當地說:“以牙還牙,以眼還眼”(《舊約全書·申命記》)。穆罕默德更是一手拿經一手持劍縱橫世界。唯有佛陀最慈悲,能夠割肉喂鷹,舍身飼虎,那是他不重視這個皮囊。身死國滅後,現在哪座大寺兩旁沒有幾個凶神惡煞的羅漢金剛?前麵還擋著一個手拱武器的護法韋陀。現實之中,沒有金剛怒目,那得菩薩低眉!
對於殺身成仁的人,心中充滿壯烈的激情可以壓倒感情的牽製和本能的保護,毅然選擇對個人,家庭不利的策略為了追求心中價值體係終極的目標。革命烈士是這樣的,雷鋒是這樣的,哥白尼是這樣的。同樣,綠色和平也是這樣的,恐怖分子也是這樣的,人肉炸彈也是這樣的。
高尚善良的人願意犧牲自己幫助別人,可能不會直接傷害任何人。但也許會不分場合地給罪犯更多權益,打壓必要的報複,資助盜賊得以生存,用犧牲縱容惡行,采用AllC策略使得AllD得到充分營養增長,讓他們有足夠的能量繼續為禍。
經過自然選擇淘汰生存下來的各種處世之道都有其合理之處。雖然有的高尚,有的醜惡,有的笨拙,有的機巧。
合作通常優於對抗,但自然的力量並非總是給予祝福。聰明的人常常嘲笑愚昧,但笨人常有著機智者不可企求的福分。人們從心底都希望正義戰勝邪惡,但世上的不公卻處處可見。
惡人欺負好人,報複製止惡行,寬容勝過嚴苛,安定祝福善良,善良滋養惡人。在競爭的世界,沒有一個無敵的策略。對於變化的群體,沒有最好的,隻有更好的策略。這是一個無休無止進化變動的世界。在信息不完全,未來不可知的情況,博弈理論不能告訴你,出自本能,情感,習慣,經驗,理智,道義哪一種的決策是更好的,但可以讓你成為局中的一個明白人。
(全文完)