細談智商(IQ)
我上周發了博文《女性與數學(2)gender gap 》(https://blog.wenxuecity.com/myblog/80301/202406/29801.html),下麵留言的網友大多跟我交流“智商”問題。其實,數學能力和智力測驗反映出來的“智力”真不是一回事兒,兩者相差甚遠。可究竟什麽是“智商”,智力測驗究竟是測什麽的,了解和理解這些的人其實不多,而且經常有一些錯誤的認識和想象。因此,我感覺有必要詳細說說。
1. 什麽是智力、智力測驗和智商(IQ):
智力(Intelligence)是指生物的精神能力,特指人類這方麵的能力,如知識、記憶力、觀察力、想象力、判斷力、語言表達能力、抽象思維能力等。它是人類適應社會生活的一般能力,大多跟認知能力有關。
大約120年前,心理學家發明了智力測驗(Intelligence Test),用於量化人的普通心智功能水平。經過百年的修訂和發展,目前國際上最常用的個人智力測驗主要有兩種:斯坦福-比奈智力量表(Stanford-Binet Intelligence Scale)和韋克斯勒智力量表(Wechsler Intelligence Scale)。
我們常說的“智商”,其實是一個曆史遺留的概念。在幾十年前測量少年兒童的心智水平和成長時,學者提出了智齡(mental age)的概念。比如一個10歲的兒童,他做智力測驗時,達到了12歲兒童的水平,那麽他的智力商數(intelligence quotient,IQ)= 智齡/實齡 ×100 = (12/10) x 100 = 120。如今的智力測驗已經不這麽計算了。智力測驗後經過換算的標準分,各個年齡組均值為100,標準差為15。但IQ是個深入人心的叫法,就保留下來了,盡管現在它已經不再是一個“商數”。
即便如此,今天說的IQ仍然是個相對值,即一個人在他/她的年齡組裏的智力相對水平,這一點必須明確。
2. 智力測驗如何進行?
人們大多以為像某些學科測驗一樣,智力測驗是讓被試者做一套題,然後根據標準答案得到分數。這是不正確的。以韋氏智力測驗為例,它測量的結果包括言語智商(verbal intelligence quotient)和操作智商(performance intelligence quotient)兩大類,下麵又細分詞匯(Vocabulary)、詞語理解(Verbal Comprehension)、知識(Information)、算術(Arithmetic)、積木設計(Block Design)、相似性(Similarities)、數字廣度(Digit Span)、模式推理(Matrix Reasoning)、拚圖(Visual Puzzles)、圖片填空(Picture Completion)等十幾個分測驗(subtests),分別測量智力的不同方麵。
高效度的智力測驗不是像考試那樣做題,而是由經過訓練的心理測量師、精神病學家、教育工作者等與被試者進行一對一測評。智力測驗過去完全是使用卡片和積木等,近年也有利用電腦顯示,但基本方式是不變的。測驗一般要耗時60-90分鍾。一名主試者一天隻能完成對少數幾個人的測試。可見高效度的全麵智力測驗是“慢”的。下麵這段錄像是進行“積木設計”測驗。可以想見,在規定的時間內,高水平者可以完成更多的任務:
下麵這是“數字廣度“測驗,是測量短時記憶的。要達到5位以上不容易。
3. 智力測驗的標準化:
標準化是智力測驗的核心。隻有標準化的測驗才使得個體之間可以相互比較。一個智力測驗在標準化時,在各個年齡階段要對不同種族、文化背景等進行分層等距抽樣。這樣得出的常模(norm)才具有代表性。否則,比如選擇太多受過大學教育的被試者,並以他們的測驗結果為常模,那麽普通人大多數IQ低於100(而不是50%低於100)。這樣的常模不具代表性,是失敗的。
另外,我們應該理解,IQ不是一個單項的絕對分。作為智力測驗的設計目標之一,標準化過程要求兩性的平均值均為100。智力測驗首先得到的的分別是十幾個項目的粗分。需要對各項得分進行換算,不同的分項取不同的權重,從而使得兩性均值相同。要做到這一點,並不需要使用不同的測驗題,隻要改變不同分項粗分換算成標準分時的係數或權重就可以“平衡”了。比如在標準化過程中,對詞匯和拚圖兩項的權重根據需要進行調整。
怎麽調整權重呢,打個比方:一套試卷包括A、B、C、D、E 五道題,老張答對A和B,老王答對C、D和E。如果各題權重相等,那麽老張40分,老王60分。現在我把權重調整一下,A和B各25分,C20分,D和E各15分。於是乎,兩人各50分,拉平了。
因此,標準化保證了男女IQ均值同為100。以此為標杆對大量人群測試表明,女性IQ的標準差比男性小,分數比較集中,男性男性標準差大,要分散一些。也就是說在大量人群中,特別聰明和特別愚笨者,都是男性居多。
如果智商測驗要引入另一個國家,不僅僅是一個翻譯問題。有些測驗,比如詞匯,是相當不同的,要重新設計,整個測驗要重新標準化。40年前韋氏測驗被引入中國時,當時湖南醫學院的龔耀先教授領導了中文版的標準化,做了大量的工作。而且,他們根據中國的國情,居然還做了“農村版”和“城市版”兩套常模(題目一樣,隻改變簡單題和難題的相對權重)。
由於語言和文化的不同,用韋氏或斯坦福-比奈量表,不易對不同國家或不同文化間進行精確比較的。然而,由於操作智商中有非語言的多項測驗(比如前麵我們看到的“積木設計”),不同國家的智商是可以大致推斷的。下圖就是一個結果。東亞是最高的,北美和歐洲多國也高,拉丁美洲除阿根廷以外都偏低,非洲很低。
4. 智商與成功:
大約在整整100年前,斯坦福大學心理學家Lewis Terman領導了一個橫跨一個世紀的超長期追蹤研究,讓人們對高智商與成功究竟是什麽關係,有了第一手的認識。Terman教授1956年去世,但他的學生們、學生的學生們前赴後繼,直到今天,一千多名被試者中仍有少量在世,研究還沒有最後畫上的句號,盡管主要的結果已經明確。這項研究本身,就反映了“定力”這個非常好的心理品質。
在這個實驗的頭些年,研究者在加州的學校尋找到1500多名智商至少為 140 的學生。這樣的分數約占人群的300分之1,Terman教授認為這是天才的門檻。這些孩子被帶有玩笑口吻地稱為Termites(這個詞的原意是白蟻,近似於Terman)。
追蹤調查表明,這些高智商孩子中確實有不少人擁有成功的職業生涯,到Terman 去世時,有 30 多人登上《美國名人錄》(Who’s Who in America),近 80 人在登上《美國科學名人錄》(American Men of Science)。
然而,這並不能完全支持“高智商者注定傑出”的觀點,因為他們的成功涉及影響智商和智商以外的複雜因素,例如Termites父母大多受過良好教育,擁有更多家庭資源。而且家庭人脈也有助他們更容易獲得成功。
Termites中沒有出現諾貝爾獎或其他著名獎項的獲得者,也沒有出現名聲顯赫的偉人。令人思考的是,William Shockley 及 Luis Walter Alvarez兩人,當時未能達標成為Termites,他們後來卻獲得諾貝爾物理學獎。
高智商似乎不能預示做出超凡成就的“天才”。智力測驗隻測試文字及非文字推理,而沒有涉及對成功至關重要的創造力,比如發散思維(Divergent thinking),即產生新想法的能力。 近年的研究發現,隻要智商中等偏上一點(110以上),智商與創造性就沒有什麽相關了,因此智力測驗並不能預期或發現開創性人才。
5. 非智力因素:
近年來的一些研究和調查表明,與智商、創造力和特殊能力無直接關係的一些非智力因素(non-intelligence factors 或non-cognitive factors)對於一個人的成功和人生的圓滿至關重要,甚至比智力因素更為重要。經常被提及的非智力心理品質包括:
動機和強烈的興趣。熱愛是最好的老師,有了興趣和熱情,一件事情才容易長久地、積極地做下去,於是獲得機遇的可能性便會大大增加。意誌力、自製力、頑強性這類心理品質也對於成事頗為重要。做父母的,如果發現孩子對一件事、一個學科有長久的passion,又diligent,resilient,即便他們的愛好不主流、不掙大錢,我希望父母一定不要強力製止。我的孩子小的時候,我宣稱如果將來我的孩子有上述幾條心理品質,哪怕他們愛上了考古,我也支持。這在一段時間裏成了我老婆攻擊我的把柄。後來我孩子沒有愛上考古,避免了家中失火。
自信與自強、良好的情緒,控製焦慮,友好而隨和的性格,以及從少年時代起善於處理人際關係等等,這些都與成功的關係相當密切。鑒於它們已經離“智商”的主題較遠,就不多說了。我個人感覺,雖然這些心理品質其實也是跟先天的人格特質相聯係,但畢竟不像智商那樣有比較硬的天花板。
非智力因素的“可培養性”要強一些,因此近年尤其受到學校教育的重視。此外,當一個有理性的成年人設法自我提升的時候,經常首先是從非智力因素開始。其結果未必是什麽公認的“成功”,但卻是心態的平和和滿足感的增加。
----------
根據與網友交流,補充說明如下——
** 一個人的絕對智能水平在一生中並非恒定。從兒童到青年時期逐年增長,絕對的智能水平到30歲左右達到頂峰,約40歲開始緩慢下降,60多歲後開始下降比較明顯。但各智力測驗的分項情況不同,比如四、五十歲時,短時記憶不如年輕時候了,但知識和詞匯分項一般會超過青年時期…… 不管怎麽說,最重要的一點是,一個人在智力測驗後得到的粗分,必須與自己所在的年齡的常模去對照,得到正確的IQ分數。
** 如果考慮智能絕對水平的變化(如成長,衰老),一個人的智商IQ(當然是用同齡常模)有穩定性嗎?答案是,有!十幾歲以後,一個人的IQ值,即一個人在同齡人中的相對“聰明”程度很穩定。但是,年齡小的時候,比如10歲以前的IQ與成年後IQ的相關就不那麽大。年齡越小時的IQ,與成年後IQ間的相關性越小,所以有的神童長大以後不神了。
** 理論上講,智力測驗測的是“能力”,一般學科考試考的是“知識”。然而在實際之中,兩者是很難截然分開的,而且“純”的能力很難定義。所以學習和訓練是可以提高智商得分的。像詞匯、算術那就不用說了。哪怕是我文中兩段錄像所所示的兩個與一般教育無關的分測驗,如果經常訓練,分數比不訓練也會提高。但經過準備後“提高智商”是自欺欺人的。
** 韋氏智力測驗和斯坦福-比奈智力測驗效度都不錯。但前提應該是在不準備、不訓練的“原生”狀態下測定才準確。更嚴肅的是,智力測驗不像SAT有巨大的題庫,它十幾項所有的問題都在一本薄薄的《手冊》上,全國多年不變。《手冊》內容應該是嚴格保密的,盡管各大學心理係、教育係、無數精神科醫生和青少年機構,包括一些中小學處都有,但有關人員不能缺德而廣而告之。否則一本手冊在手,準備它幾周,一個傻子的智商也可以達到180。
** 很少有人知道,SAT是來源於一個快速“智力”測驗The Army Alpha Test,這是100年前軍隊用於篩選軍人的。因此,SAT 與 IQ 有“血統”上的淵源。然而兩者相關係數有多大,這是有很大爭論的。我認為肯定比0.4高,但可能不像有人宣稱的0.85那麽高。SAT 的reading部分肯定與言語智商分項有高相關。SAT數學不是高難度數學,應該與IQ分數也有較高的相關。
** 不同族裔的智商有差異,這是客觀存在的,但個體差異很大。我曾經有兩個非裔在手下工作,水平都還可以。特別是其中一位,理解力、舉一反三的能力和動手能力都很好。看外表,他是典型的黑人相貌。相反我隔壁辦公室的一位manager,幾個月前剛剛雇了一個猶太人Ph.D,現在抱怨說他笨且不誠實,後悔雇他。我認為在實際工作和生活中,避免先入為主,根據個體素質評判是明智的。
更多我的博客文章>>>