榕城老應

用調侃去書寫思考,以故事來敘述理論。
個人資料
正文

從自私走向合作(3)

(2010-09-08 15:24:21) 下一個

--“囚徒困境”博弈的啟示

       榕城老應


3。胡蘿卜加大棒

“冷酷策略”能夠讓極其精明自私的對手從自己的利益出發自覺地放棄眼前短期利益而走向合作,用博弈的邏輯證明了一個重要的手段:在重複博弈中讓對方了解自己可信的處事原則就會影響他的決策。

“冷酷策略”是大棒子的政策,有阻嚇作用,但一旦開動兩敗俱傷,對方得到的教訓是極其慘痛的,但施法者也賠上了,從此被仇恨蒙住了眼為複仇付出終生。對陣時萬一遇上不開眼的馬大哈或者純粹誤會,那就掐上了,確實過於冷酷,也不明智。“不教而誅,謂之虐”。既然讓對方了解自己可信的處事原則就會影響他的決策,是不是罰過了給個出路,送根胡蘿卜?

確實如此,這個觸發策略的政策叫做“禮尚往來(Tit for Tat)”。你用“背叛”待我,下一回合我也回敬個“背叛”。待到你想通了送個“合作”來,下次我也給你“合作”。這個策略有時翻譯得更有殺氣點叫“以牙還牙”或者“一報還一報”,簡寫為“TFT”,其實含有寬恕的成分,遠比“冷酷策略”要溫柔的多。

TFT有威脅阻嚇作用嗎?這要細看。TFT有兩個成分,一是“懲罰”,二是“寬恕”。如果把它分開陳述,什麽時候使用“寬恕”要看我爽不爽,受阻嚇的人當然要考慮最壞的情況,那“懲罰”的政策就有“冷酷策略”的功效。要是這兩個成分捆綁在一起作為一個政策公布,那對方就有個投機的心理。要避免投機,一會兒“背叛”,一會兒“合作”鑽政策中寬恕成分的空子,重複囚徒困境博弈必須滿足 "2 R > T + S"這個條件,就是說用“背叛”對“合作”,占便宜和被占便宜的得益平均值小於共同合作的得益,不然投機分子就會反反複複玩這手來得益,反正被懲罰了挨打也不怎麽疼。中國曆史上許多部族時降時叛,最典型的是隋煬帝征高句麗,就是因為這個條件不能滿足被鑽了空子。讀者可以自己來證明這個條件的作用。

為了讓大家方便對照T,R,P,S的含義,我將囚徒困境的支付矩陣重新羅列如下。注意有T > R > P > S。
 

某人
合作背叛
合作R,RS,T
背叛T,SP,P



 


是不是有了這些觸發策略以後就能做到合作?未必。觸發策略是後發製人。它們可以是子博弈完美納什均衡,也就是說它可以維持已有的合作局麵,但不能開創這個局麵。對於囚徒困境,無論是單次還是重複,誰先伸手合作,都有可能吃虧。考慮一下對方第一次就使出“背叛”不怎麽友好的人,你無論是使用冷酷策略還是溫柔些的TFT,到第二步就是用“背叛”來報複了。如果對方也不肯吃虧,那麽以後雙方就都是用“背叛”來對掐了。我方第一步用“合作”要比“背叛”來的吃虧。即使雙方都有觸發策略,要扭轉對抗的局麵,就必須有一方先做出犧牲才行。

這又給我們一個啟示:重複囚徒困境博弈中必須至少有一方願意犧牲才可能開始合作。

是不是願意作犧牲高尚的一方一定要受損失呢?不一定。他隻有在碰到有惡意的對方時,第一下被人占了便宜,以後就不會了。在觸發策略啟動後,隨著交手次數的增加,這個平均收益與不作犧牲最好的對策的差別就會越來越小,交手足夠多時以致可以忽略不計。但如果對方也是懷有善意,或者能夠改惡從善從而走向合作,那就掙大了。冒一個小損失的風險而可能取得合作雙贏的高尚人也是真正一個聰明的人。

所以說:自私一點精於算計的對手並不可怕,就怕你要合作的人不夠聰明!

更精明的人有兩個疑問:一是作為現實生活中的重複博弈雖然不知道什麽時候結束但都是有限的。二是現在的收益中與以後的重要性是不同的,對金錢還講個利息呢。考慮到這兩點對上麵的結論有什麽影響?

不難看出這兩點都使得長遠的利益打了折扣,這要使得懲罰威脅的效果降低,合作的難度是要大些。 不是很難可以推算出精確的結果。假如下一次還會相遇的概率為p,現在的收益放到下一次的利息為r,記W =(1+r)/p-1,下一次可能的博弈收益V折現到現在的收益就是 V/(1+W)。用這個參數,可以算出當W<(R-P)/(T-R) 時冷酷策略才有威懾力。當 W<(2R-S-T)/(T-R)  時TFT的寬恕成分才不會被人有機可乘。注意到無利息無限重複博弈時 W=0,囚徒困境有 T>R>P>S,這時冷酷策略威懾力的條件自然滿足,具有寬恕成分的TFT的有效條件變為 2R>T+S,這與我們前麵陳述的一樣。

這讓我們看到有時人性陰暗的一麵發生的原因。人們之所以可以從囚徒困境的悲劇中跳出來,是因為將來還會相遇,將來也很重要,可以用將來長遠的利益來影響對手當前的策略選擇。在當前的利益比將來重要的多時(r 較大),當將來相聚的機會不大或看不到將來時(p 較小),這導致對將來的折現率W較大,就是說當下的收益被更加看重。如果對反複無常的人報複的損失 2R-S-T 不大及背叛的誘惑 T-R很大,W<(2R-S-T)/(T-R) 就有可能不能滿足,這意味著TFT的寬恕不足以挽回想背叛的人走回合作。如果雙方合作與背叛單幹的收益的差距 R-P 不大及占便宜與合作的差別 R-P 很大時,W<(R-P)/(T-R) 不滿足意味著冷酷策略都無法阻止背叛。這在W比較大時就容易發生。這就是為什麽在經濟危機時公司的合作可能瓦解,國家之間容易發生戰爭,災難之中朝不保夕時常見醜惡,高速轉型期折現率W較大時傳統道德往往淪喪。這時任何的教化和局中的策略都無助於事,局中人為了自保減少損失紛紛走向背叛。唯一可以改變這個局麵的是超脫博弈雙方的政策,它可以直接幹預改變支付矩陣中部分參數的賦值。是以亂世用重典!作為與這群體敵對的力量則可以用穩定時期的約定,美好的向往,普世的規則來阻止進行必要的政策改變,使其社會群體難以合作陷入長期對抗之中。

這次從2008年開始的美國金融危機讓投資人,消費者,銀行,公司的合作關係麵臨崩潰的危險。“看不見的手”的運作已經指向負麵,美國政府大力出手幹預自由經濟。采用一係列比社會主義還要直接的政府幹預手段,改變了博弈支付矩陣的賦值,使得局中的合作關係得以維持,不至於讓危機進一步擴大。這與1997年亞洲金融危機,以維持自由經濟原則來批評香港政府的態度截然不同。那是因為美國政府搞經濟的深諳博弈理論,絕不是隻懂得主義信仰的書呆子。

我們在這裏看到了:對於重複囚徒困境博弈,采用有反饋的策略可能阻止背叛走向合作。但是當環境惡化,懲罰不足以讓背叛者拒絕占便宜的誘惑時,合作將會瓦解。上麵的數值關係條件給合作得以維持的條件。給當權者指出用政策來改變社會風氣的方向。

(待續)

[ 打印 ]
閱讀 ()評論 (1)
評論
目前還沒有任何評論
登錄後才可評論.