--“囚徒困境”博弈的啟示
榕城老應
2。威脅帶來和睦
這個有限次的重複博弈的結論有點出乎意外,與人們的直覺經驗不大一樣。在這論證之中,人可以精到從最後的第一萬次不能吃虧算起,一腦門心思栽在最壞的情況,全然沒想到變個路子還有多進賬的可能,真不知道是聰明還是真傻。雖然現實中的重複博弈次數總是有限,但一般難以知道終點,也就無法從終點倒著算計。所以在現實中的人或自然活物都不見得按照這個有限次重複博弈邏輯進行。
朋友就說:“是呀,這笨匪Bob,Al和博弈雙方怎麽老想著最壞的情況呢?為什麽不互相信任一起往好處奔呢?”
問題是你有什麽保障能夠信任對方?就拿Bob來說吧,不要說兩肋插刀去保Al,就是為了自己抵賴不招。那頭Al慫了。最後他出去了,可把你往裏埋了十五年。Bob那個悔呀,雙眼流淚,氣衝霄漢,我幹嘛那麽傻指望Al也不會招!心裏恨得把Al殺死一百回也不頂用了。不是說害人之心不可有,防人之心不可無嗎?兩人花前月下甜言蜜語後,要進圍城了,不還得前思後量的。這也是因為囚徒困境呀!沒有得到真心實意判斷絕不會出錯之前能跨出最後一步嗎?這賭的大了,可不是過家家差就那麽三瓜兩棗的,沒有個切實可信的保障,行不得那個險的!
所以積極的策略光有願望還不夠,必須有切實的辦法讓對方自願也合作才行。還是轉回來,看看理論研究有什麽結果。
無法知道終點的情況與折現到無限重複博弈在考量上是等價的。我們來考慮這種情況。
重複博弈與一次博弈重大的區別在於局中人在乎的是多次中總的收益或者平均收益,為此可以暫時犧牲一下眼前的收益。說教對唯利是圖的人是不起作用的。為了使得對方相信有些便宜是不能占的,你必須威脅對方,讓他知道如果選擇隻顧眼前的策略,下一步起就要吃大虧了。讓他權衡從此往後的收益,從而改變短視的做法。
這個帶有威脅的策略在博弈論中叫著“觸發策略(Trigger Straitegies)”。最簡單的觸發策略是“冷酷策略(Grim Straitegy)”。
現在看一下“冷酷策略”怎麽讓重複囚徒困境博弈走向合作。這個的冷酷策略是:小子,你要膽敢“背叛”,從此就別想得到我的“合作”了!當然,外交和教養的藝術會把這句話包裝的比較溫柔一點,但意思是一樣的。
說到這裏,淑女不愛聽了:“什麽威脅,冷酷策略呀。文雅的人從來不用這粗魯的一套!”
“誰昨天還對男朋友說:‘要是還同那妖精來往,就再也不理你了’,這不正是冷酷策略嗎?”
在這個冷酷策略下,對方不願意破壞雙方一直合作的大好局麵。為什麽呢?假如你想占便宜下一步來背叛,就會再想想:他不好惹呀!犯忌觸發了冷酷策略,從此都要麵對“背叛”的回報了,這個收益可要比大家都合作來的少,幾步下來那一步占便宜的好處都抵不上這樣減少了。所以還是不變的好。這是每一個精於計算的人都能想明白的事。因此重複囚徒困境博弈可以在冷酷策略威懾下保持合作。
這便是重複博弈中“無名氏定理(the Folk Theorem)”證明的基本思路。
光有善意是不夠的,威脅才能帶來和平,這對善良人的想法真是一個很大的諷刺,但也十分現實。中國的“反分裂法”就是應用這個冷酷策略來應對台海博弈以阻嚇可能走向雙輸的對抗。
在這裏有一個關鍵是:這個威脅必須是“可信的(Credible)”才能嚇著對方。對唯利是圖的博弈者,沒有實現策略能力的問題,隻要這個策略在任何情況下都不會讓他吃虧就有可能去做,這個威脅也就是可信的了。這時對手在行動時就要認真地對待這個威脅,掂量一下是不是值得改變既定的默契而遭到報複了。
1996年台海危機時,李登輝得悉大陸軍事演習用的是空包彈後,這個威脅馬上就是不可信了。這個軍演透露出來的信息不僅沒有起到冷酷策略的作用,反而讓對方放心地用對抗來占你要合作的便宜。
讓我們驗證一下真正的冷酷策略的可信性。當我遭到背叛啟動了這個策略以後,不管你是什麽策略為都報之以“背叛”。如果這時你是“背叛”,我也是“背叛”,針尖對麥芒,自然比傻乎乎的還再來個“合作”強。如果你這時悔改了要“合作”,晚了!我的“背叛”就占了你的便宜。所以無論你怎麽著,我這個冷酷策略與其他可能的選擇來比都不虧。這個策略是可信的了。
在這幾年朝核問題就麵臨重複“囚徒困境”的博弈,雙方都軟下來談判,是都在維持“合作”的局麵。北朝鮮一次次的惹事,一次次的麵臨“囚徒困境”的博弈,而都能“合作”談判是因為雙方的“冷酷策略”都是可信的。美國的不用說了。金二雖然實力不如,但全軍全民一個聲音,說要不讓我搞核武器就和你打,炸平了也比受欺負強,這敢與你同歸於盡的威脅也是可信的。這威脅要擱在日本或其他不那麽”流氓“的國家說,可信度就差了,也就不會那麽老“合作”談判了。當然,在現實中的威脅可信性,會隨著實力,決心,及其他選擇的出現而改變,整個局麵會隨之而改變,這是局中人不可不察的。
野蠻女友要是每天都吃醋,砸鍋摔碗的,總有一天繼續合作的價值不高了,那個“冷酷策略”怕就不靈了。
“無名氏定理”,有時翻譯為“民間定理”或者“俗定理”,其實是一組在重複博弈中尋求可行解決方案(Solution Concept)的定理,有著不同的版本。它的基本思想早在50年代末便不加證明地散見在一些論文中,後來大家發現這個思想對重複博弈非常重要。在1971年Friedman正式在他的論文中用了這個名字。被大家通常引述的Rubinstein 1979年的證明便沿用上述的思路。
重複博弈從某一步開始往後的一係列博弈叫做它的“子博弈”,如果各博弈方的某個策略組合在所有子博弈都構成納什均衡,那麽這個策略組合稱為“子博弈完美納什均衡”。重複博弈一旦進入子博弈完美納什均衡狀態,從利益角度也就難以單方麵改變了。誰變了就是不吃虧也沒好處。這類比於單次博弈中的納什均衡狀態。
“無名氏定理”其中一個比較含糊通俗的表述是:在無限次重複博弈中,如果局中人對未來足夠重視,那麽,任何程度的合作都可以通過一個特定的子博弈完美納什均衡得到。這裏“合作程度“定義為整個博弈中合作出現的頻率。
這使得重複博弈要比其單一博弈要豐富多彩得多。我們以後有空時再專題討論。
(待續)
請閱讀更多我的博客文章>>>