細談智商(IQ)
我上周發了博文《女性與數學(2)gender gap 》(https://blog.wenxuecity.com/myblog/80301/202406/29801.html),下麵留言的網友大多跟我交流“智商”問題。其實,數學能力和“智力”真不是一回事兒,兩者相差甚遠。可究竟什麽是“智力”和“智商”呢?智力測驗究竟是測什麽,是如果測量的?了解和理解這些的人其實不多,而且經常有一些錯誤的認識和想象。因此,我感覺有必要詳細說說。
1. 什麽是智力、智力測驗和智商(IQ):
智力(Intelligence)是指生物的精神能力,特指人類這方麵的能力,如知識、記憶力、觀察力、想象力、判斷力、語言表達能力、抽象思維能力等。它是人類適應社會生活的一般能力,大多跟認知能力有關。
大約120年前,心理學家發明了智力測驗(Intelligence Test),用於量化人的普通心智功能水平。經過百年的修訂和發展,目前國際上最常用的個人智力測驗主要有兩種:斯坦福-比奈智力量表(Stanford-Binet Intelligence Scale)和韋克斯勒智力量表(Wechsler Intelligence Scale)。
我們常說的“智商”,其實是一個曆史遺留的概念。在幾十年前測量少年兒童的心智水平和成長時,學者提出了智齡(mental age)的概念。比如一個10歲的兒童,他做智力測驗時,達到了12歲兒童的水平,那麽他的智力商數(intelligence quotient,IQ)= 智齡/實齡 ×100 = (12/10) x 100 = 120。如今的智力測驗已經不這麽計算了。智力測驗後經過換算的標準分,各個年齡組均值為100,標準差為15。但IQ是個深入人心的叫法,就保留下來了,盡管現在它已經不再是一個“商數”。
即便如此,今天說的IQ仍然是個相對值,即一個人在他/她的年齡組裏的智力相對水平,這一點必須明確。
2. 智力測驗如何進行?
人們大多以為像某些學科測驗一樣,智力測驗是讓被試者做一套題,然後根據標準答案得到分數。這是不正確的。以韋氏智力測驗為例,它測量的結果包括言語智商(verbal intelligence quotient)和操作智商(performance intelligence quotient)兩大類,下麵又細分詞匯(Vocabulary)、詞語理解(Verbal Comprehension)、知識(Information)、算術(Arithmetic)、積木設計(Block Design)、相似性(Similarities)、數字廣度(Digit Span)、模式推理(Matrix Reasoning)、拚圖(Visual Puzzles)、圖片填空(Picture Completion)等十幾個分測驗(subtests),分別測量智力的不同方麵。
高效度的智力測驗不是像考試那樣做題,而是由經過訓練的心理測量師、精神病學家、教育工作者等與被試者進行一對一測評。智力測驗過去完全是使用卡片和積木等,近年也有利用電腦顯示,但基本方式是不變的。測驗一般要耗時60-90分鍾。一名主試者一天隻能完成對少數幾個人的測試。可見高效度的全麵智力測驗是“慢”的。下麵這段錄像是進行“積木設計”測驗。可以想見,在規定的時間內,高水平者可以完成更多的任務:
下麵這是“數字廣度“測驗,是測量短時記憶的。要達到5位以上不容易。
3. 智力測驗的標準化:
標準化是智力測驗的核心。隻有標準化的測驗才使得個體之間可以相互比較。一個智力測驗在標準化時,在各個年齡階段要對不同種族、文化背景等進行分層等距抽樣。這樣得出的常模(norm)才具有代表性。否則,比如選擇太多受過大學教育的被試者,並以他們的測驗結果為常模,那麽普通人大多數IQ低於100(而不是50%低於100)。這樣的常模不具代表性,是失敗的。
另外,我們應該理解,IQ不是一個單項的絕對分。作為智力測驗的設計目標之一,標準化過程要求兩性的平均值均為100。智力測驗首先得到的的分別是十幾個項目的粗分。需要對各項得分進行換算,不同的分項取不同的權重,從而使得兩性均值相同。要做到這一點,並不需要使用不同的測驗題,隻要改變不同分項粗分換算成標準分時的係數或權重就可以“平衡”了。比如在標準化過程中,對詞匯和拚圖兩項的權重根據需要進行調整。
怎麽調整權重呢,打個比方:一套試卷包括A、B、C、D、E 五道題,老張答對A和B,老王答對C、D和E。如果各題權重相等,那麽老張40分,老王60分。現在我把權重調整一下,A和B各25分,C20分,D和E各15分。於是乎,兩人各50分,拉平了。
因此,標準化保證了男女IQ均值同為100。以此為標杆對大量人群測試表明,女性IQ的標準差比男性小,分數比較集中,男性男性標準差大,要分散一些。也就是說在大量人群中,特別聰明和特別愚笨者,都是男性居多。
如果智商測驗要引入另一個國家,不僅僅是一個翻譯問題。有些測驗,比如詞匯,是相當不同的,要重新設計,整個測驗要重新標準化。40年前韋氏測驗被引入中國時,當時湖南醫學院的龔耀先教授領導了中文版的標準化,做了大量的工作。而且,他們根據中國的國情,居然還做了“農村版”和“城市版”兩套常模(題目一樣,隻改變簡單題和難題的相對權重)。
由於語言和文化的不同,用韋氏或斯坦福-比奈量表,不易對不同國家或不同文化間進行精確比較的。然而,由於操作智商中有非語言的多項測驗(比如前麵我們看到的“積木設計”),不同國家的智商是可以大致推斷的。下圖就是一個結果。東亞是最高的,北美和歐洲多國也高,拉丁美洲除阿根廷以外都偏低,非洲很低。
4. 智商與成功:
大約在整整100年前,斯坦福大學心理學家Lewis Terman領導了一個橫跨一個世紀的超長期追蹤研究,讓人們對高智商與成功究竟是什麽關係,有了第一手的認識。Terman教授1956年去世,但他的學生們、學生的學生們前赴後繼,直到今天,一千多名被試者中仍有少量在世,研究還沒有最後畫上的句號,盡管主要的結果已經明確。這項研究本身,就反映了“定力”這個非常好的心理品質。
在這個實驗的頭些年,研究者在加州的學校尋找到1500多名智商至少為 140 的學生。這樣的分數約占人群的300分之1,Terman教授認為這是天才的門檻。這些孩子被帶有玩笑口吻地稱為Termites(這個詞的原意是白蟻,近似於Terman)。
追蹤調查表明,這些高智商孩子中確實有不少人擁有成功的職業生涯,到Terman 去世時,有 30 多人登上《美國名人錄》(Who’s Who in America),近 80 人在登上《美國科學名人錄》(American Men of Science)。
然而,這並不能完全支持“高智商者注定傑出”的觀點,因為他們的成功涉及影響智商和智商以外的複雜因素,例如Termites父母大多受過良好教育,擁有更多家庭資源。而且家庭人脈也有助他們更容易獲得成功。
Termites中沒有出現諾貝爾獎或其他著名獎項的獲得者,也沒有出現名聲顯赫的偉人。令人思考的是,William Shockley 及 Luis Walter Alvarez兩人,當時未能達標成為Termites,他們後來卻獲得諾貝爾物理學獎。
高智商似乎不能預示做出超凡成就的“天才”。智力測驗隻測試文字及非文字推理,而沒有涉及對成功至關重要的創造力,比如發散思維(Divergent thinking),即產生新想法的能力。 近年的研究發現,隻要智商中等偏上一點(110以上),智商與創造性就沒有什麽相關了,因此智力測驗並不能預期或發現開創性人才。
5. 非智力因素:
近年來的一些研究和調查表明,與智商、創造力和特殊能力無直接關係的一些非智力因素(non-intelligence factors 或non-cognitive factors)對於一個人的成功和人生的圓滿至關重要,甚至比智力因素更為重要。經常被提及的非智力心理品質包括動機、愛好、激情、意誌力、自製力、頑強、自信、低焦慮、友好以及善處人際關係等。
動機和強烈的興趣。熱愛是最好的老師,有了興趣和熱情,一件事情才容易長久地、積極地做下去,於是獲得機遇的可能性便會大大增加。意誌力、自製力、頑強性這類心理品質也對於成事頗為重要。做父母的,如果發現孩子對一件事、一個學科有長久的passion,又diligent,resilient,即便他們的愛好不主流、不掙大錢,我希望父母一定不要強力製止。我的孩子小的時候,我宣稱如果將來我的孩子有上述幾條心理品質,哪怕他們愛上了考古,我也支持。這在一段時間裏成了我老婆攻擊我的把柄。後來我孩子沒有愛上考古,避免了家中失火。
自信與自強、良好的情緒,控製焦慮,友好而隨和的性格,以及從少年時代起善於處理人際關係等等,這些都與成功的關係相當密切。鑒於它們已經離“智商”的主題較遠,就不多說了。我個人感覺,雖然這些心理品質其實也是跟先天的人格特質相聯係,但畢竟不像智商那樣有比較硬的天花板。
非智力因素的“可培養性”要強一些,因此近年尤其受到學校教育的重視。此外,當一個有理性的成年人設法自我提升的時候,經常首先是從非智力因素開始。其結果未必是什麽公認的“成功”,但卻是心態的平和和滿足感的增加。
----------
根據與網友交流,補充說明如下——
** 一個人的絕對智能水平在一生中並非恒定。從兒童到青年時期逐年增長,絕對的智能水平到30歲左右達到頂峰,約40歲開始緩慢下降,60多歲後開始下降比較明顯。但各智力測驗的分項情況不同,比如四、五十歲時,短時記憶不如年輕時候了,但知識和詞匯分項一般會超過青年時期…… 不管怎麽說,最重要的一點是,一個人在智力測驗後得到的粗分,必須與自己所在的年齡的常模去對照,得到正確的IQ分數。
** 如果考慮智能絕對水平的變化(如成長,衰老),一個人的智商IQ(當然是用同齡常模)有穩定性嗎?答案是,有!十幾歲以後,一個人的IQ值,即一個人在同齡人中的相對“聰明”程度很穩定。但是,年齡小的時候,比如10歲以前的IQ與成年後IQ的相關就不那麽大。年齡越小時的IQ,與成年後IQ間的相關性越小,所以有的神童長大以後不神了。
** 理論上講,智力測驗測的是“能力”,一般學科考試考的是“知識”。然而在實際之中,兩者是很難截然分開的,而且“純”的能力很難定義。所以學習和訓練是可以提高智商得分的。像詞匯、算術那就不用說了。哪怕是我文中兩段錄像所所示的兩個與一般教育無關的分測驗,如果經常訓練,分數比不訓練也會提高。但經過準備後“提高智商”是自欺欺人的。
** 韋氏智力測驗和斯坦福-比奈智力測驗效度都不錯。但前提應該是在不準備、不訓練的“原生”狀態下測定才準確。更嚴肅的是,智力測驗不像SAT有巨大的題庫,它十幾項所有的問題都在一本薄薄的《手冊》上,全國多年不變。《手冊》內容應該是嚴格保密的,盡管各大學心理係、教育係、無數精神科醫生和青少年機構,包括一些中小學處都有,但有關人員不能缺德而廣而告之。否則一本手冊在手,準備它幾周,一個傻子的智商也可以達到180。
** 很少有人知道,SAT是來源於一個快速“智力”測驗The Army Alpha Test,這是100年前軍隊用於篩選軍人的。因此,SAT 與 IQ 有“血統”上的淵源。然而兩者相關係數有多大,這是有很大爭論的。我認為肯定比0.4高,但可能不像有人宣稱的0.85那麽高。SAT 的reading部分肯定與言語智商分項有高相關。SAT數學不是高難度數學,應該與IQ分數也有較高的相關。
** 不同族裔的智商有差異,這是客觀存在的,但個體差異很大。我曾經有兩個非裔在手下工作,水平都還可以。特別是其中一位,理解力、舉一反三的能力和動手能力都很好。看外表,他是典型的黑人相貌。相反我隔壁辦公室的一位manager,幾個月前剛剛雇了一個猶太人Ph.D,現在抱怨說他笨且不誠實,後悔雇他。我認為在實際工作和生活中,避免先入為主,根據個體素質評判是明智的。
=========
【論壇交流】
https://bbs.wenxuecity.com/romance/970641.html?
謝謝臨讀、評論。
IQ隻是一個標簽,而且我認為對大多數人是沒有必要的標簽。看了這麽多年,感覺非智力因素實在是重要。積極的、不斷爭取的人是成功且快樂的人。
謝謝油翁點評。
哈哈,60是絕對不可能的,那是智障的水平。老兄120還是問題不大的。
謝謝您臨讀、評論。
Visual-spacial learners 和 auditory-sequential learners是教育心理學上一些研究者的說法,稍類似於形象思維與抽象思維。但大部分人是兩者兼有,不極端的。它們跟智力測驗的兩大部分performance IQ 和 verbal IQ稍對應,也不全是。
IQ可以很好地預測學生在學校的學習表現(但不能很好地預測事業的成功)。IQ高的學生一般是高分學生。“聰明”而被學校埋沒者,有時候是因為學生具有某種特殊能力(IQ不反映特殊能力),沒有被周圍認識到。
花姐好。
男人就連壽命都要短好幾歲,還有什麽好爭的,完敗!
好像就IQ高的小孩而論,大致又可分兩大類:Visual-spacial learners 和 auditory-sequential learners。他們之間差異特別大,往往也因為這些差異和人們對這些差異的忽視,以傳統的常識性的“聰明”標準判斷,導致IQ高的小孩之天才被埋沒,影響到他們的健康成長和成才。
哈哈,不好一概而論的。
智商最高的幾個地方是:新加坡(全球最高)、中國大陸、台灣、韓國和日本。這其中大部分地方幸福指數還是不錯的。至於東方大國,情況比較魔幻,那裏經常說美國窮人挨餓,街上子彈橫飛,相信政府的人不到一半(這倒是真的)之類,你說太平洋那邊的人民不幸福?
而且你看這城裏頭老少回國後秀的照片,吃香喝辣、燈紅酒綠,生活水平不是高得很嗎?
平等兄好。
好問題,好交流!你這裏又牽涉我文中沒有說的三點,有必要說明:
1. 一個人的智能不是完全恒定的。絕對的智能水平到30歲左右達到頂峰,約40歲開始緩慢下降,60多歲後開始下降比較明顯。但各智力測驗的分項情況不同,比如四、五十歲時,短時記憶不如年輕時候了,但知識和詞匯分項一般會超過青年時期,這方麵40歲以後繼續增長…… 不管怎麽說,最重要的一點是,某一個年齡的人,必須使用自己所在的年齡的常模來得到IQ分數。比如說你平等兄今年55歲,我給你測智商,得到一個粗分,然後必須拿分數跟55歲的常模去比較,得到真實IQ,比如得到140(天才!);假如拿同樣的粗分去對照35歲的人的常模,也許您的IQ分值變成了132(準天才);假如同樣的粗分去用80歲的常模,得到的IQ可能是160(超天才!)
2.一個新的問題出現了:如果不管智能的絕對水平的變化(不考慮成長,衰老),一個人的IQ(當然是用同齡常模)有穩定性嗎?答案是,有!十幾歲以後,一個人的IQ值相當穩定(老年癡呆後斷崖,那不算。)。但是,年齡小的時候,比如10歲以前的IQ與成年後IQ的相關就減小。年齡越小時的IQ,與成年後IQ間的相關性越小,所以有的神童長大以後不神了。
3. 你說:“IQ和智商不能劃等號,畢竟IQ隻是一個測試。” 我想應該是說— “IQ和智能不能劃等號”。IQ是試圖反映一般智能的。現在最好的兩個智力測驗效度多不錯。但前提應該是在不準備、不訓練的“原生”狀態下測定才準確。像我跟樓下“泥川”網友解釋的,進行訓練後得到的分數會提高,是自欺欺人,沒什麽意思。更為嚴重的是,智力測驗不像SAT有巨大的題庫,它十幾項所有的問題都在一本薄薄的《手冊》上,全國多年不變。《手冊》內容應該是嚴格保密的,盡管各大學心理係、教育係、無數精神科醫生和青少年機構,包括一些中小學處都有,但有關人員不能缺德到廣而告之。否則一本手冊在手,準備它幾周,一個傻子的智商也可以達到180。
謝謝雅臨。
謝謝臨讀、評論。
我們周圍的人,其智力一般也是正態分布的,有聰明,也有一般乃至愚笨。如果您遇到的聰明人特別少,可能是“運氣”的原因。
大部分人都是普通人,踏實做事、真心做人就好,IQ出自先天,不是追求來的。但像我文中說的,其實很多非智力因素對人生非常重要。另外,研究表明,作為總體,高智商人群並不比普通人群有更多幸福和滿足感。
IQ測試既然和其它動腦筋活動相關,必然是共用大腦區域。用則進,不用則退。動腦筋活動多,自然使相關大腦區域更有效,從而影響IQ測試。這些動腦筋活動,就是IQ測試的準備,和針對性準備有相似作用。
理論上講,智力測驗測的是“能力”,一般學科考試考的是“知識”。然而在實際之中,兩者是很難截然分開的,而且“純”的能力很難定義。所以學習和訓練是可以提高智商的,包括學校的學習。像詞匯、算術那就不用說了。哪怕是我文中兩段錄像所所示的兩個與一般教育無關的分測驗,如果經常訓練,分數比不訓練也會提高。。。所以,不能太把IQ當回事兒。
讓腦筋轉動靈活,需要Warmup。比如現在拿來高中的數學題,你不一定能馬上做出來。不是因為笨了,而是需要時間來適應。
v你這裏麵有三個問題,我的分析如下 ——
1. SAT的題目都是經過validation的,每年難度有一致性。按照設計,每項的均值在500左右,標準差大約100。每個中學的生源是類似的,而好學校與差的學校不同。因此你“發現幾乎各所中學SAT曆年的平均值差別隻有幾分(雙滿分1600)。當然好學校差學校平均值大不相同”,這與SAT的設計目的是一致的。
2. 很少有人知道,SAT是來源於一個快速“智力”測驗The Army Alpha Test,這是100年前軍隊用於篩選軍人的。因此,SAT 與 IQ 有“血統”上的淵源。然而兩者相關係數有多大,這是有很大爭論的。我認為肯定比0.4高,但可能不像有人宣稱的0.85那麽高。SAT 的reading部分肯定與言語智商分項有高相關。SAT數學不是高難度數學,應該與IQ分數也有較高的相關。但是注意一點,智力測驗是能力測驗,是不需要、也不應該準備的(準備後“提高智商”是自欺欺人的)。但SAT是知識測驗,是可以訓練提高的。鑒於它的升學目的,通過訓練去提高也是有道理的。
3. 國內高考沒有題庫,題目不事先經過量化的validation,最後根據高考結果去curve,這與中國的很多“國情”是一致的,很難想象中國高考有一個數學題庫。在美國可行的事情在中國不可行。每年由專家現出題當然可以,我想出題過程中也有一個經驗性的難度估價,但出偏的危險是存在的。題目太難會出現floor effect,太易則出現ceiling effect,兩者均會對考生缺乏足夠的區分度。
謝謝。
我過去有一位老板是美國左派,他是堅決反對基因決定論的。我有一次跟他探討,問他種族與智商問題在研究上該不該禁忌,他說可以研究,公正的研究是不該有限製的。
在現實中,我盡量隻看個體,不以族裔歸類和產生偏見。我曾經有兩個非裔在手下工作,水平都是不錯的。特別是其中一位,理解力、舉一反三的能力和動手能力都是一流。看外表,他是典型的黑人相貌。。。我隔壁辦公室的maneger,幾個月前剛剛雇了一個猶太人PhD,抱怨說他笨且不誠實。。。所以,在實際工作和生活中,“色盲”和根據個體素質評判是明智的。
謝謝您臨讀、留言。
IQ反映一般能力,而高水平的數學競賽更依靠數學方麵的特殊能力,是很難定義和測量的。
兩者的相關性0.4左右,不是高相關。無法通過IQ分數來發現和選拔傑出的數學人才。