囚徒們的困惑
文章來源: 越吃越蒙山人2018-11-29 10:24:25

(博弈論漫談之二)

 

人,活在世上這一輩子,不知道要經曆多少挑戰作出多少選擇,而且每一次選擇都可能對其以後的人生軌跡有著難以盡述的影響。雖然說我們人人都有自私的基因,想把自己的利益最大化,但沒有人能有足夠好的運氣,能夠保證每一次選擇都是最為利己的。很多時候,利益最大化選項的背後隱含著的也是風險最大。所以,追求極致,未必對所有人都是一個理所當然的選擇。好在我們人類的生物思維體係中,有一個能自我修飾自我調整的回路,這就使得我們能夠在上一次的選擇之後,觀察外界的反饋,從而獲得經驗獲得教訓獲得獎勵,並以此作為下一次抉擇的依據。

 

上世紀五十年代有兩位美國數學家設計了一個遊戲,以期通過參與者相互之間的互動,來考察人際間交往信任合作的關係。這個遊戲就叫“囚徒的困惑”。它的設計思路是這個樣子的:假如你和你的一個朋友被警察指控犯了重罪(當然,你們可能是真幹了點什麽,也可能是被誣陷的,實際什麽都沒幹),你們被捉進了監獄。在你們還沒來得及相互詢問溝通一下情況,警察就把你們隔離開來開始單獨審訊了。

 

警察剛一開始要做的,肯定是依照慣例,向你交代明白了黨的坦白從寬抗拒從嚴的偉大政策, 而且厲聲告訴你,你的朋友在無產階級專政鐵拳的震懾下,早就放棄了抵抗,把所有的一切都招了,他指控你也犯了罪。(這是什麽朋友啊。不過現實中肯定是有這樣的人的。另外,警察說的可能是真的,也可能是嚇唬你的謊話,這事在哪兒都一樣)。接下來事態的發展,會根據你們不同的應對產生以下四種可能的結果:

 

A. 如果你不承認被指控的罪行,而且你的同伴也否認了指控,這案子就很難站得住腳,最終的判決會是很輕的,這對你和同伴來說算是雙贏的結局,在博弈理論中被稱作是合作。當然,在當時的情形下,你根本不可能知道你的同伴會怎麽做。

 

B. 如果你坦白承認了罪行,而且你的同伴也坦白承認了罪行,這樣,警察沒花太大的力氣就做實了案子,大功一件。被認定是犯了罪的你們兩人肯定是逃脫不掉法律的製裁的。當然,政府也是說話算話的,他們還是會落實坦白從寬的政策,讓你們實際得到的懲罰比理應得到的輕了不少。但不管怎麽說,對你和你的同伴而言,這還是算作一種雙輸的結局。

 

C. 但是如果你聲稱無辜拒絕認罪,而你的同伴卻在另一間屋子裏全都承認了。那麽,這樣情形帶來的結局對你最為不利,你會得到最為嚴厲的定罪懲罰,而你的同伴會得到最輕的甚至沒有處罰。於是,你會受到雙重打擊,最為悲催;而你的同伴或說是朋友,卻背叛了你,在博弈理論中,那會被稱為變節。這是你輸他贏的結局。

 

D. 與C類同,如果你是變節的一方,你的朋友是死不鬆口的一方,他最終會得到最倒黴的結局,是他輸你贏。

 

好了,知道了黨的政策,和不同情況可能帶來的結果後,讓我們再把利弊認真梳理一下。首先,如果你和你的朋友(同夥)很默契,合作得天衣無縫,無論是拒絕指控還是承認罪行都能做到步調一致,你們兩人就都能避免最壞的可能結局。但是,如果你要是想求穩妥,不追求極端的滿意結果,也避免最差的結果,就老老實實認慫,承認罪行是你們幹的,這也是條不差的選擇;而且,在這種情況下,如果你的同夥負隅頑抗,拒絕認罪,那你會得到意外獎賞,沒準最後脫離懲罰也未可知。

 

把這些都想清楚了,你應該能意識到,無論你的同伴怎麽做,你的最優選擇其實是變節而不是追求與他同進同退口供一致的合作。同樣,如果你的同夥不傻,他也會得到相同的推論。也就是說,按照理智的推理,追求雙贏結果的風險是最大的,它有可能對你個人的最終結果是最差,造成你輸他贏的結局。為了避免這一最糟糕的情況出現,你和同伴最可能作出的決定應該都是變節。所以,如果你們兩個人都是冷靜理性的,很大的可能,在一開始你們就已經決定要雙輸了。這就造成了所謂的“囚徒的困惑”。

 

接下來,讓我們進一步設想一下。如果這個博弈過程有重複做下去的可能,局中人的行為會發生什麽樣的變化呢?這樣的情形實際是增加了一個反饋機製,它讓參與者能夠根據自己受到的懲處,來推測同伴上一次的行為,並以此來反思以前的決定及調整下一步的選擇策略。於是,一方參與者的行為對另一方來說就是一個返喂伺服信號,你的變節可以造成對方下一次的變節,你一次自我犧牲,可能就會給以後的長期合作埋下伏筆。其實這也是一個隱藏著的自然規律。

 

三十年前,密執根大學的社會心理學教授Robert Axelrod,使用計算機把這個博弈遊戲在加多了人加多了回合的情形下推演了下去,他發現,贏得最終勝算的策略好像很簡單,無論你被別人利用了多少,被占了多少便宜,你都應該尋求合作,而不是變節,也就是按照我們上一篇講到的金色定律來出牌:你想別人怎麽待你,你就怎麽待人。高尚贏得勝利,很好。

 

但是,當這些參與者之中混進了像是曹操那樣的人物的時候,不管別人怎麽行善,他都按自己能得到最大利益的可能性來出牌,金色定律策略就失效了,因為曹操做出來壞事後,要是得不到負麵的反饋,他就會永遠這麽做下去,一顆老鼠屎就會壞了一鍋粥。

 

所以,為了讓群體係統的長期共贏局麵演變出來,必須引入另一個處事原則——銅色定律和環環相報原則。