--“囚徒困境”博弈的啟示
榕城老應
4。善良的智慧
博弈理論中的無名氏定理畢竟隻是證明了:無窮多種合作的均衡可以在重複囚犯困境博弈中,由理性自利的人作出來。但進入這個合作均衡的第一步必須至少有一方能夠忍讓犧牲才有可能開始。那麽在現實中這合作真的能夠做到嗎?低等的生物和分子水平的個體並沒有多少智力,它們能夠出現合作嗎?
70年代密知根大學教授Robert Axelrod做一個實驗,他邀請各個大學在囚徒困境的遊戲規則下,進行電腦程序錦標賽。兩兩程序捉對進行150次重複博弈。冠軍為多倫多大學數學教授Anatol Rapoport得到。他的程序十分簡單,第一次合作,以後就照抄上一回合對手的策略。這就是TFT呀!Axelrod十分驚異這個結果,又組織了一次比賽。結果還是它得標。單純的善良容易受到欺負,進取十足的過於咄咄逼人,老謀深算精於分析都不如這個簡單的TFT能夠因合作而受益。TFT與每個對手對陣,都沒勝過對方,最好的也不過是平局,但它所有的對陣的收益加起來總分最高。不求勝過對方,結果活得最滋潤,這才是真正的智慧所在!
這個電腦仿真實驗給人們很多啟示。
首先,無論是人際關係,公司競爭,生物生存的博弈,真正的目的不是勝過對方而應該是自身的總收益。因此自私明智的策略應該是最大地促進合作避免背叛,TFT沒有勝過任何對手但得了與所有人對陣後最高的積分。
其次,TFT的策略以合作開始是善意的,受侵犯會報複是尊嚴的,對方悔改就原諒是寬容的,程序簡單是明朗的。這善意,尊嚴,寬容和明朗的特點也是人們熟知的最好的處世之道。
這個以合作為開始以後照抄對方行為的TFT策略是如此的簡單,不需要多麽高級的智力就能實現,任何生物以致分子團都能於生俱有。這就解釋了為什麽在自然界合作能夠如此廣泛地存在。
×-×-×-×-×
“等等!你前麵推理說的是:TFT這麽又拉又打的,弄得猴精都要跟你合作。後麵實驗說的是:TFT與其他各種死不改悔的策略過招,結果積分最高。這哪兒跟哪兒呀,怎麽鬧到一塊了?”
“後麵實驗的結果說明:TFT和其他策略競爭時有生存的優勢。而它是靠合作的成果來取勝的。前麵的推理是說:要是對手足夠聰明,經過一番推理後,他會選與你合作。要是對手不夠聰明或者沒有智力,那采用其他策略時就會遭到實驗一樣的結果,終將被自然淘汰。聰明的人在頭腦裏過了一遍各種可能,是不需要碰了壁才想明白的。博弈的均衡是自然淘汰後的結果,或是聰明人能想明白的狀態。”
“那麽,像TFT和冷酷策略,要宣示出來讓對手知道嗎?”
“不說出來,策略的優勢表現在博弈的結果上。就像上麵實驗一樣。但這是血淋淋的戰後統計結果。宣示出來,策略的優勢表現在影響對方聰明人的決策上,防止誤判,達到不戰而屈人之兵的結果。”
×-×-×-×-×
這裏幾個最典型策略的對陣情形還是很容易想象的。這也是人們在生活中經常遇到的。
一律背叛好戰的惡人AllD與同類交手則互鬥,雙方都得了次差的收益。與TFT和冷酷策略(Grim)對陣也基本如此。遇上對方懷有善意伸手合作的策略都能占了便宜,收獲大了。對方善意越多,惡人得分越多。這叫姑息養奸。
非常善良一味合作的AllC與同類,TFT和Grim相遇時都能合作,各得次好的收益。遇上在無視你的善意的AllD和其他比較狡猾的策略,隻能被予取予奪,對方得到最高,自己落得最慘下場。這是舍身飼虎,求仁得仁?
Grim,與TFT或單純的AllC相處還好,遇上其他不太安分的策略,最終多會互相掐上了。這家夥苦大仇深,心眼較小。眥仇必報,沒完沒了,自己也不好過。
TFT比Grim好一點,遇上對方即使是不安分但尚能見風使舵的還會走向合作共贏。唯寬可以容人,大家都好。
其他更狡猾複雜的策略至多在AllC或比較善良的策略間討點便宜。對AllD,TFT,Grim及其他比較狠辣的策略得不償失。
當然Grim和TFT,嚴格地以牙還牙,還是顯得過於狹隘。雙方都持有這種策略在如電腦一樣毫不差錯的對局中都還能合作下去。但在現實世界中偶而的錯失和誤解是難免的,一個誤會就引起懲罰,懲罰帶來報複,報複又受反擊,這樣以牙還牙的一直互鬥下去。現代的戰爭和人事無謂的爭鬥大多是如此引起的。為此各種修正的TFT應運而生,比如說受到對方背叛時不一定非要報複,有時偶爾再次伸手合作,具有額外的寬容以便在誤會等等具有噪音環境的也能穩定地走向合作。
×-×-×-×-×
Axelrod的電腦仿真實驗可以解釋促進合作的TFT策略比其他在生存之道上更有優勢。但是這電腦比賽是一對一的交往,而在生物競爭中一個個體是生活在一群同類和異類的環境中,一個人可能落入一個充滿惡意的群體中。TFT的最初善意在一對一的比賽中遇上了AllD白眼狼隻是在第一下吃了點虧,以後重複就打平了。但你如果落入一群白眼狼中,每遇一個新的白眼狼都吃一個虧,累積起來傷痕累累,還能活下去嗎?
這個比賽也沒有解釋這個策略是否可能在進化中產生。沒解釋如果你身處一個全是隻顧眼前不願合作的團體,有沒有可能用TFT的思想影響轉變他們。
進化中能夠產生的新種都是微小的變異偶然在原有的群體中發生。它必須比原來個體更有適應環境的優勢才可能得以在競爭中生存發展。也就是說新的策略,如果它可以具有更多的收益的優勢就可以侵入原有的群體,它也就可以在進化中產生。
在一個都習慣於一種思想的團體,如果一種新的思想能夠影響幾個人,從而使得他們的收益大於守舊的人,那麽這種新思想就能在團體中站住腳。不然的話,這個群體中的原來策略或者團體中的舊思想就會扼殺新思想。這樣的舊思想就稱為“進化穩定策略(Evolutionarily Stable Strategy)”,簡稱ESS。
ESS概念是John Maynard Smith在1972年首先引入的。一個群體如果都采用某一ESS策略,那麽采用任何一個其他策略少量個體都不能入侵它。也就是說,自然選擇的力量會消滅群體中ESS策略的變種。這個概念起先用在博弈論,行為生態學,經濟學上,後來廣泛地被用到人類學,進化心理學,哲學和政治學上。Maynard Smith因此在1999年得了在基礎研究中榮譽不下於諾貝爾獎的Crafood獎。
探求自然界合作之謎在上個世紀八十年代就開始有很多的研究。在囚徒困境的環境下,對於持有AllD和TFT策略的物種都是ESS的。也就是說,當著兩種物種混在一起,隻有TFT占有足夠多的數量,自然選擇的壓力才會讓TFT占據優勢,從而一統天下。否則,AllD將消滅TFT。
這個結果其實十分悲觀。須知進化都是從簡單開始的,最簡單的策略是毫無記憶不知變通的AllD和AllC。在全是AllC的群體,它們都是非常善良總是合作,個個都有很好的收益,這就像在伊甸園。但是如果偶然變異產生了一個AllD的惡魔,或者來自外麵的入侵。這個總是不合作的AllD,在遇見AllC時占盡便宜得到更多的收益,所以在進化中具有競爭優勢,產生出更多的後代進而侵吞了AllC整個的世界。這個需要擁有記憶比較複雜一點的TFT在變異中產生時,必須麵對著全是惡魔的AllD地獄世界,按照上麵ESS的結果是無法生存下去的。
(待續)
請閱讀更多我的博客文章>>>