如果說“零和遊戲”是博弈論中的一個最重要的特例,那麽“囚徒困境”無疑就是最具普遍性和代表性的博弈論模型。甚至可以說,不談“囚徒困境”我們就無法談論博弈論。
“囚徒困境”的故事大致是這樣的:
甲、乙兩個人一起攜槍準備作案,被警察發現抓了起來。因為沒有其他犯罪證據,警方隻能以非法攜帶槍支的輕罪處罰他們。但是警方懷疑這兩個人可能還犯有其他重罪,於是分別進行審訊。警方告訴他們:如果主動坦白,就有可能得到寬大處理。否則,一旦同夥主動交代,抗拒者則必將受到重罰,而坦白者可以立功減刑。
在這種情形下,這兩個囚犯必須作出自己的選擇:或者他們相互背叛,與警方合作;或者保持沉默,和自己的同夥合作。這樣就會出現以下幾種情況(為了更清楚地說明問題,我們給每種情況設定具體刑期):
1、如果兩人都不坦白,警方會以非法攜帶槍支罪各判兩人1年徒刑;
2、如果其中一人招供,而另一人不招,坦白者作為證人將被免予起訴,另一人將會被重判10年;
3、如果兩人都招供,則兩人都會因搶劫罪各判5年。
我們假設這是兩個聰明的囚犯,現在這兩個聰明的囚犯該怎麽辦呢?是選擇相互合作還是相互背叛?從表麵上看,他們應該相互合作,保持沉默,因為這樣他們倆將得到對雙方來說都是最好的結果——隻獲刑1年。但是,由於信息被封閉,兩人無法交流,而他們又不得不考慮對方可能采取的選擇。由於甲、乙兩個人都十分精明,所以他們都會優先考慮如何才能減少自己的刑期,至於同夥被判多少年已經顧不得許多了。
甲會這樣推理:
假如乙不招,我隻要一招供,馬上就可以獲得自由,而不招卻要坐牢1年,顯然招比不招好;假如乙招了,我若不招,則要坐牢10年,他卻獲得了自由,而我招了也隻坐5年,顯然還是招認為好。可見無論乙招與不招,我的最佳選擇都是招認。所以還是招了吧。
也就是說在這種情況下,如果甲認為乙會合作,則甲背叛能得到更多的利益;如果甲認為乙也將背叛,則甲的背叛也能得到更多的好處。所以無論乙采取什麽樣的行動,選擇背叛對甲來說結果總是好的。
於是,甲似乎知道該怎樣做了。但是,相同的邏輯對另一個人也是同樣適用的。因此,乙也會選擇背叛,而不管甲如何做。
這樣一來,甲、乙兩人都選擇招供,這對他們個人來說都是最佳的決定,即最符合他們個體理性的選擇。
按照博弈論的說法,這是他們雙方的“優勢策略”,也是他們所能選擇的唯一平衡點。在這一點上,任何人單方麵改變選擇,他隻會得到較差的結果。
現在問題出現了:按照他們的最佳選擇,他們將是雙方背叛,隻能一起去坐5年牢,這比他們雙方合作,隻坐1年牢的結果顯然要差很多。由此我們注意到個體理性導往往導致雙方得到的實際利益比可能得到的要少得多,這就是著名的“囚徒困境”。