人人都要懂的10個科學事實(組圖)





近幾十年來,關於政治決策與科學更緊密融合的呼籲已經成為老生常談。然而,無論是從能源到健康,還是從環境到教育,要將科學應用到政策中,仍存在許多嚴峻的問題。

在此背景下,我們認為當務之急是讓政策製定者認識科學那不完美的本質。能夠明智地對專家顧問進行問詢,能夠正確理解證據的質量、局限性和偏差,這些都是政策製定者必需的素質。我們把這些素質稱為解讀科學的能力(interpretivescientificskills)。這些技能比理解基礎科學本身更易掌握,並且可以成為大多數政治人物廣泛技能的組成部分。

鑒於此,針對公務員、政治人物、政策顧問、記者以及其他與科學或科學家打交道的非專業人士,我們提出了20個在培養自身科學素養時需要掌握的概念。一個倡導科學的、具有懷疑精神的政治人物,一定會希望用這些重要的知識武裝自己。當然,其他人也許會列出略有不同的清單。重點是,我們認為如果社會對這20個概念有了更廣泛理解,將標誌著社會的一大進步。

條件差異和幾率都會引起變化



我們看到的現象通常是許多因素共同影響的結果。

現實世界的變化是不可預測的,而科學想探究是什麽造就了這些變化。為什麽現在比過去十年更熱?為什麽某些地區的鳥比其他地方的多?關於這些趨勢有很多解釋,科學研究的最大挑戰是從無數的其他來源的變化中,梳理出我們感興趣的過程所起到的作用(比如,要研究氣候變化對於鳥類數量的影響,就要把“氣候變化”這個因素,從農業集約化、入侵物種的傳播這類大範圍變化,以及偶然的個體出生和死亡這些本地小規模事件中剝離出來)。

沒有絕對準確的測量



事實上,所有測量都存在誤差。每一次重複試驗都可能得到不同的結果。在某些情況下,與實際變化相比,測量誤差也許會很大。比如,如果你得知上個月的經濟增長了0.13%,那麽實際上縮減的可能也是存在的。提出結果時應該給出結果的誤差範圍,以避免不合理精確度的出現。

偏倚是很普遍的



單盲實驗和雙盲實驗的示意漫畫。而在實際情況下,並不是所有研究都能采用理想的雙盲實驗方法,容易產生偏倚。

實驗設計或測量裝置可能會對實驗結果造成影響,在某一特定的方向上產生非典型結果。比如,同樣是想知道投票行為情況,分別進行當街采訪、電話采訪和網上調查,因為樣本的成分不同,就可能會得到不同的結果。而因為那些有“統計上顯著”的結果更可能會被報道和出版,隻看文獻會讓人產生錯覺——問題的嚴重性或者解決方案的有效性會被誇大。實驗中的偏倚很可能這樣產生:實驗的參與者知道自己接受的是不同的治療,所以會嚐試表現的不同;調查者們對結果的收集會受“知道誰接受了治療”的影響。其實理想實驗應該是雙盲的(Double-Blind),即參與者和收集數據的研究者都不知道哪些參與者接受了什麽處理。這在藥物試驗中是很容易做到的,但是對於社會問題就不可能。科學家們在希望找到數據來補充之前的調查結果,或者想反駁一個觀點的時候,比較容易產生確認傾向(confirmationbias)。

樣本量通常越大越好



當看到一個吸引眼球的研究結論時,在奔走相告之前,不妨先了解一下這個研究的樣本量。

大的樣本量得到的平均觀測結果往往比小樣本量的更有益。換言之,當我們積累證據的時候,我們的理解也在加深。這對那些變量多、容易產生測量誤差的複雜體係尤其重要。一種藥物的有效性在每個個體間都存在差異,因此為了在藥物測試中更可靠、準確的估計藥物的平均功效,一個有數以萬計的樣本的實驗要比一個隻有數百個樣本的實驗好得多。

相關關係不代表因果關係



相關不等於因果,而不代表相關就不可能是因果關係。

假定一件事物可以導致另一事物固然是很誘人的。然而,相關關係的得出有時候是出於偶然,又或者某兩種看似相關的因素的關係,其實是由複雜的或潛在的第三因素決定的。比如,生態學家曾一度認為有毒的藻類殺死了一條河流入海口處的魚;但後來發現是因為魚死了所以藻類繁盛起來。並不是藻類本身導致魚類死亡。

回歸均值效應可能造成誤導



在設計科學實驗、解讀實驗結果時,研究者必須考慮統計回歸效應(向均數回歸效應)帶來的影響,以避免推論錯誤。

單次測量中,至少有一部分極端的數據是由於偶然或誤差造成的,進行另一次測量,數據可能就沒有那麽極端(或顯著)了。比如,在經常發生車禍的地方放置一個測速相機,但隨後事故率的減小並不能歸因於放了測速相機,因為原來的高事故率本身可能是偶然,無論是否放測速相機,事故率都很可能向減少的方向發展。

數據範圍之外的推斷存在風險



試著體會這個梗:“這個世界上隻有兩種人,一種人能用不完備的數據進行推論。”

在某一範圍得到的模型可能出了這個範圍就不適用了。所以,如果現在的氣候變化速率比現存物種在進化史中所經曆過的任何時期都要快,或是出現一個全新的極端天氣係統時,評價生態係統對於氣候變化的反饋就十分困難了。

注意基礎比率謬誤



假設一個機器人能夠以99%的正確率區別金幣的真假,並且判斷出了一堆假幣。那麽當你從假幣堆中拿出其中一枚,這枚硬幣的確是假幣的幾率是多少?如果你直覺地回答“99%”,那麽就陷入了基本概率謬誤之中。

一個不完美的檢驗到底有多準?這不但和檢驗本身好壞有關,還和我們要檢測的狀態本身發生的概率(基本比率)有關。比如,一個人做了有99%準確度的血液測試來檢測一種罕見疾病,結果呈陽性,但其實他健康的可能性比生病的可能性更大。如果10001個人來參加這個測試,其中隻有一個人有病,此人的結果幾乎肯定呈陽性,但還有100個健康人(1%的人)測試結果也會呈陽性。這種類型的計算在任何篩查工作中——比如機場安檢——都相當重要。

對照很重要



“親愛的,去跟他談談吧,他剛剛發現自己是個安慰劑。”當前在新藥開發等研究中,安慰劑對照實驗發揮著重要作用。

除了待測變量之外,對照組與實驗組要保持一樣的條件。沒有對照組,就很難知道實驗處理究竟對結果有沒有影響。它可以幫助科學家確保沒有額外的因素在幹擾結果。有時人們在藥物測試中表現出陽性可能是因為環境、提供測試的人甚至隻是因為藥丸的顏色。在這種情況下,設置對照組(例如安慰劑組)就非常重要。

隨機化能夠避免偏倚



樣品的選擇也會影響實驗結果,隨機取樣能幫助研究者避免偏倚的結論。

實驗應該盡可能采集隨機樣本。例如直接比較有參與健康計劃的家庭和沒有參與健康計劃的家庭中孩子的學習成績,是很容易帶上偏倚的(因為受教育程度較高的家庭也許本來就更可能參與健康計劃)。因此,好的實驗設計應當隨機選擇一些家長讓他們參與健康項目,隨機選另一些不讓他們參與。

我們並不會天真到相信有了這些提示,政策方針就會自動得到改進。我們十分清楚科學判斷本身是有價值負載的,也了解偏差和語境跟數據的采集及闡述方式息息相關。我們提供的隻是一些簡單的想法,以幫助政策製定者理解科研證據對決策的作用,避免潛在既得利益者造成的不正當影響。然而難點在於,社會公眾對不同政策的接受程度,仍取決於政治人物本身和更廣泛的政治過程。

從蜜蜂數目減少的問題到核能的利用問題。科學界觀點與政府政策不一致的情況屢有發生。要將科學觀念貫徹到政策製定中,前路依然崎嶇。

為了改善這一現狀,我們開始鼓勵越來越多的科學家參與政治。盡管此項舉措值得讚賞,但期望科學家大舉參政並不現實。另一提議是擴大首席科學顧問的作用,增加他們的數量、可用性與在政治過程中的參與度。然而,這兩種方法都沒有解決核心問題——議會投票者中那些科盲們。

或許我們可以向政治人物們教授科學?這個想法很吸引人,但是哪個政治人物會有如此充足的時間呢?實際上,他們幾乎從不閱讀科學論文和相關書籍。顧問或外部谘詢人會給政治人物們闡述與時下熱點相關的研究,例如線粒體置換、牛結核病、核廢料處置問題等。然而,很少會有人會為了一個政策問題去精心設計一個有大量樣本和明確結論的雙盲隨機重複對照實驗。

以下是20條建議中的後10條:

尋求“重複”而非“偽重複”



重複有利於提高實驗結果的可靠程度。但在實驗設計時,需要注意避免落入“偽重複”的陷阱。

在大量實驗、獨立群體中重複出現的數據更有可能是可靠的。基於多個實驗的係統回顧或元分析能夠提供單一研究無法媲美的信息。簡單地在一群人中挑一些個體出來並施加幹預,比如在一個班級的孩子中做實驗,可能會產生誤導——因為這些孩子除了這個幹預以外還有許多其他共同特征。如果把在這些孩子中得到的實驗結果推廣到其他不具有相同特點的群體中,其實就是犯了“偽重複”的錯誤。偽重複會導致研究者對結果產生沒有根據的信心。加拿大紐芬蘭大淺灘就是因為“偽重複”實驗得出鱈魚數量豐富的結論,促進了世界最大鱈魚漁場的倒閉。

科學家也是人



“科學家也是人,他們和其他人群一樣存在偏倚。但他們的確也有很大的優勢:因為科學是個自我糾正的過程。”——著名生理化學家西裏爾·龐南佩魯馬。

科學家也想在促進他們工作的過程中得到某些利益,通常是地位或研究經費,某些時候可能是更直接的經濟獲益。這種情況可能導致數據的刻意選擇與誇大。同行評價不是絕對可靠的;期刊編輯可能更支持積極的、富有新聞價值的結果。多元、獨立的數據來源及重複結果才更可信。

顯著性很重要



差異顯著性指標常用於假設檢驗。通常情況下,P<0.05時,科學家才可以得出數據間具備顯著性差異的結論。

統計顯著性表示一個事件出於偶然而發生的幾率,用P表示。比如一項實驗中實驗組與對照組的差異顯著性是P=0.01,這表示有百分之一的可能性是:實驗處理其實沒有效果,是偶然因素導致了實驗組和對照組的差異。科學家習慣將P<0.05的情況稱為顯著。

不顯著不代表沒效果



差異不顯著也並不等於差異不存在。

統計學上不顯著(P>0.05)不代表真正的無效,隻代表它的影響沒有被我們檢測到而已。小型研究可能不足以找出真正的差異。比如用基因改造的抗蟲棉和抗蟲馬鈴薯做的某一組實驗顯示,這些作物對諸如傳粉者的益蟲不存在不利影響,但實際上這些實驗的樣本量都不夠大,如果有影響可能也檢測不到。

“效應量”很重要



數據差異是否在統計上顯著和數據均數差異的大小是不一樣的概念。在差異究竟有多大時,我們需要關注效應量(effectsize)。圖為不同Cohend係數所表示的差異情況。

顯著性可以衡量差異是“真的”還是“假的”,但如果差異是真的,它有多大?這是所謂的效應量。一項多次重複的實驗也許會得到統計上顯著、但效應量很小的結果(因此,可能並不重要。)效應量的意義不是一個統計學問題,而是生物、物理或者社會層麵的問題。二十世紀九十年代,美國期刊《流行病學》(Epidemiology)的主編要求作者們停止使用統計學顯著性,因為他們總會誤讀這項數據,從而得出不科學和不正確的公共衛生政策。

“關聯性”會限製結論的推廣



研究對象不同,研究的條件和結果會有所差異。因此不要輕易將某項研究的結論一般化。

科學研究結果能否應用在實際問題上,取決於研究條件和實際情況的相似程度多大。比如從實驗室動物實驗中得到的結果運用到人類的時候就很有局限性。

感覺會影響風險感知



一些風險認知(橫線以上)和實際風險(橫線以下)的差異:從左至右依次為高溫、恐怖襲擊、癌症、墜機、車禍、電磁波。

寬泛地講,人們通常認為“風險”=“某個時間段內某一事件發生的概率”ד這個事件所引發的結果”。很多因素都會對人類的風險感知造成不同程度的影響,包括事件的罕見性、人們自以為對事件的掌控程度、結果的不利影響、風險是否自發等。比如,美國人就會嚴重低估在家攜帶槍支的危險(1%),而嚴重高估住在核反應堆旁邊的危險(1000%)。

相關性會改變風險



風險評估必須考慮所關注的事件之間的相互關聯程度。

計算獨立事件的結果是有可能的,比如極潮、強降水和關鍵員工的缺席。但如果這些事件相互關聯(比如風暴會導致高水位,而強降水會導致關鍵員工的缺席),它們共同發生的幾率就比預期更大。信用評級機構對一大波次級房貸違約風險的低估就是2008年信貸市場崩潰的一個重要原因。

數據是可以選擇性呈現的



“……這是我們保存不顯著結果的地方。”——不當的數據選擇行為目前仍是切實存在的問題。

有時為了支持自己的觀點,實驗者會選擇對預期結果有利的證據。譬如,一項研究認為懷孕時的酸奶攝入量和後代患哮喘之間顯然有相關性,但要解讀它,我們首先要知道研究者是本來就打算驗證這一假說,還是在一大堆數據中偶然發現這一相關性的。相比之下,希格斯玻色子的某一段搜尋曆史則是所謂“旁視效應”的例證:如果你使勁使勁找,總能找出來點兒什麽。要學會問這個問題:有啥是他們沒告訴我的?

極端測量值可能會引起誤導



科學在普及、進步的過程中總會遭遇各種阻力。加深人們對科學的認識,社會最終將因此獲益。

由於個體能力差異、取樣、偏見、測量誤差等因素的影響,所有數據測量的整理結果都具有可變性。例如學校的教學效率就會因為老師的能力、受試學生的代表性、學校所處地域、指標測量方法等因素的影響而呈現差異。但在解釋研究結果的時候,除個體差異之外的因素常常會被忽略掉。如果我們討論的是極值的結果(畢業率翻倍了),比較極值和平均值的幅度(X校的畢業率是全國平均值的三倍),或者是數值的範圍(表現最好和最差的學校之間有x倍的差距),這就會帶來嚴重問題。排行榜就是其中的典型,很少有靠譜的結論。

請您先登陸,再發跟帖!