我見我聞,我思我想

從大陸來到美國,至今在東西方度過的時日大致各半。願以我所見所聞觸及一下東西方的文化和製度。也許能起一點拋磚引玉的作用。
個人資料
溪邊愚人 (熱門博主)
  • 博客訪問:
正文

SAT背後的係統性歧視

(2023-07-31 07:49:28) 下一個

鑒於SAT不能完全真實地反映考生的實際水平,現在不少美國大學不再要求申請人提交SAT的考試成績,而是讓申請人自己選擇要不要提交。就是說,你沒有SAT成績不會給你帶來負麵影響。

大學的這一決定被不少人罵作“極左”,“為了照顧弱勢群體,走過頭了”。

是不是過了,見仁見智。但估計很多人並不完全了解SAT背後的不公平故事。

ACT/SAT培訓中心Huntington的廣告

SAT是一種能夠通過訓練提高成績的考試項目。有錢人家的孩子可以通過補習班獲得一點優勢,所以說,SAT不是一個能夠公平地衡量學生水平的工具。但這並不是我接下來要說的。我要說的,是SAT背後的係統性歧視。

我曾經講過的兩個SAT有偏向的故事。但當時限於篇幅和文章主題,隻是作了簡單的例舉,沒有展開。今天集中談SAT,正好可以仔細審視一下故事背後的東西。

 

SAT的“傳統”是偏向白人、貴族的

故事一:很多年的SAT類比測試都包括了一個類比問題,要求考生將“劃槳手:帆船賽”確定為“賽跑者:馬拉鬆”的正確答案。這道題白人學生的答對率高於有色人種學生——這不是因為先天智商,而是因為他們更有可能知道regatta這個詞是“帆船賽”或“劃艇賽”。

Regatta是個生僻詞,它代表的體育項目真的是白人、有錢人才玩的。這也是藤校間競技的保留節目。藤校當初就是貴族子弟的學校啊。

所以SAT的“傳統”就是偏向白人、貴族的。

SAT考試中被認為不適宜詞匯的例子還有pirouette,yachting和debutante balls等。

國家公平與公開考試中心(National Center for Fair & Open Testing)公共教育主任羅伯特·謝弗(Robert Schaeffer)說:“這是令人難以置信的以文化為中心(的考試)。你在洛杉磯市中心看不到帆船賽,在阿巴拉契亞山脈看不到,在新墨西哥看不到。”謝弗還問:“pirouette(代表芭蕾舞的一種旋轉動作)是大多數高中生都會使用的詞嗎?”

故事二:SAT的正式題目往往都是經過預先測試的。1998年,SAT測試了A、B兩個問題,發現黑人學生正確回答問題A的比例高於其他群體,而白人學生不成比例地正確回答了問題B。SAT後來放棄了問題A,保留了問題B。

之所以這樣做,原因是,如果測試的問題複製了以往考試的結果,比如白人與黑人的對錯比例與以往正式考試結果相接近,那麽該問題就被認為是“好問題”,納入正式題庫,否則的話就認為題目出偏了,此題不適宜作為正式考題。

曆史學家伊布拉姆·X·肯迪(Ibram X. Kendi)於2021年向全國教育協會解釋說:“我們仍然認為孩子們有問題,而不是認識到考試有問題。標準化考試已成為有史以來最有效的種族主義武器,旨在以客觀的名義貶低黑人和棕色人種孩子們的智力,並合法地將他們排除在名校之外。”

但是,以這樣的原則來選題,部分卻也是由SAT考試的性質決定的。

 

SAT生來就是偏向富裕的白人考生

美國的SAT考試往往被視為類似於中國的高考。其實,區別還是挺大的。

中國的高考,考生或者用全國統一試卷,或者用省/市統一試卷,而大學對各個省市的招生也往往有預先的名額分配,這樣,招收某省或某市的考生時,被挑選的考生用的是同一張試卷,這樣比較,可以認為用的是同一個標準。

SAT由美國私人非營利組織大學理事會(College Board)全資擁有,其開發和出版由教育考試服務中心(Educational Testing Service,簡稱ETS)代理。在美國,ETS每年共提供7次SAT考試機會,分別在三月、五月、六月、八月、十月、十一月和十二月。每一次的考卷,都是從一個題庫裏選題。不同時候的考卷可能有個別題目會相同,但沒有兩次考試的卷子是一模一樣的。

這些考試分布於全國的各個“考場”。每個學生自己選擇時間和考場報名。因為SAT成績並沒有過期作廢一說,所以,從理論上來說,你隨便什麽時候考都行。美國高中四年製,一般都是高三時考SAT,但提前一兩年考的也大有人在。

那麽大學招生時,競爭同一個位置的那些學生很可能是參加了不同時候的SAT考試,用的是不同的考卷。但大學又是將申請人的SAT成績看成是可以相互比較的。這就要求SAT的考卷能夠保證穩定性和重複性,保證同一個人考不同張卷子時,得到的成績基本上是沒有變化的,隻有這樣,SAT的成績才有可比性

為了保證SAT考試的穩定性和重複性,ETS對新出的題目特別謹慎,要在實際考生那裏測試過才敢放入題庫。所以有些SAT考試的卷子是加長的,其中包括了測試題。考生並不知道哪道題是“真的”,哪道題是測試題。隻有正式題目才計分,測試題隻是為ETS提供參考。

上麵故事二中說到的預先測試就是這種情形。而做出放棄問題A,保留問題B的決定,就是出於保證SAT考試的穩定性和重複性的目的。從這個原則出發,似乎這樣的選擇也無可厚非,是吧?

但是,這個看上去人畜無害的穩定性和重複性是有代價的。選題時,“複製以前考試的結果”,維持的就是以往一貫的白人高比例的好成績。別忘了,早期的時候SAT被看成純智商測試,能夠測量“潛在的生物潛力”,而“潛在的生物潛力”隻是“白人和富有”的一種編碼表達方式。當然,白人的成績遙遙領先也“證明”了白人的高人一等,反過來,這種優勢又一直被穩定性和重複性“保護”著。

所以,SAT有史以來一直是偏向於白人考生的。但SAT係統性的歧視還遠不止這些。

 

被忽略的黑人的優異表現

2003年,在ETS工作了三十多年,已於1998年退休的心理學家羅伊·弗裏德爾(Roy Freedle)在《哈佛教育評論》發表了一篇長文,證明SAT考試存在種族偏見。與先前那些證明SAT有偏見的研究不同,弗裏德爾特別指出了一個被忽略的現象——在SAT成績相同的情況下,黑人在較難的考題上比非西班牙裔白人做得更好。所以他認為偏向白人的SAT其實掩蓋了黑人以及所有在文化上被剝奪的人(也包括部分白人)的潛質。

弗裏德爾的研究結果受到ETS的強烈攻擊。但2015年,智利天主教大學(Catholic University of Chile)教育學助理教授瑪麗亞·桑泰利斯(Maria Santelices)和加州大學伯克利分校教育學教授馬克·威爾遜(Mark Wilson)的研究再次證實了弗裏德爾的研究結果。這兩個研究的重點都是去發現顯示“差異項目功能”(differential item functioning,縮寫為DIF)的問題。

所謂DIF問題,用個例子來說就是:一組黑人和一組白人,除了族裔不同,他們各方麵條件,比如生長環境、個人水平等都相當,但他們對某個問題的回答卻發生了黑人和白人之間的明顯差異。這個問題就具備了白人和黑人的DIF特質。DIF問題適用於各種情況,並不限於白人與黑人的對比。

為什麽那些DIF問題中,比較容易的對白人有利,比較難的則對黑人更有利呢?對此,弗裏德爾的理論是,簡單的問題可能反映在占主導地位的白人社會常用的文化表達方式中,因此白人學生的優勢不是基於教育或學習技能或能力,而是因為他們很可能是在白人周圍長大的。越難的單詞越可能是“學”來的,而不是僅僅靠“吸收”獲得。弗裏德爾說:

首先必須說明的是,實際上所有這些DIF項目的影響通常都很小。例如,白人學生在一些簡單的項目上可能會得到84%的正確率,而非洲裔美國人在同一項目上的正確率略低,比如82%。相反,對於某些特定的困難項目,白人學生可能會得到30%的正確率,而非裔美國人可能會得到稍高的分數,比如31%的正確率。這些效應的不同尋常之處在於其高度一致性,高度模式化。也就是說,許多簡單的項目顯示出非裔美國人表現不佳,而許多困難的項目顯示出他們的表現優異,這些區別雖小但持久......

基於文化的解釋有助於說明為什麽非裔美國人(和其他少數族裔)考生通常在許多困難的語言題目上表現更好,但在許多簡單的題目上比能力匹配的白人表現差。簡單的類比題目往往包含高頻詞匯,而困難的類比題目往往包含低頻詞匯......例如,“馬”、“蛇”、“獨木舟”和“高爾夫”出現在幾個簡單的類比題目中。這些是日常對話中經常使用的詞語。相比之下,諸如“vehemence(激烈)”、“anathema(詛咒)”、“sycophant(阿諛奉承者)”和“intractable(棘手的)”之類在較難的類比題目中出現的詞,不會出現在日常對話中......但是,它們很可能出現在與學校相關的各種材料或教科書的內容中。

2015年的研究發現黑人和白人學生的SAT相較於2003年都有進步,但白人的進步更大。該研究認為,這是由SAT的評分方式造成的。如果給難度大的題目較多權重,黑人的成績就會提升。

2015年的研究還有另外一層意義:2015年時的SAT考試形式已經與2003年有很大不同。很多改變就是為了縮小SAT題目中一些內在的容易造成族裔之間分數差異的因素。那麽,2015年的研究證明,已有的改變還不夠。

2003和2015年的研究都沒有發現數學部分有DIF問題,就是說,各方麵條件相當的白人和黑人,SAT的數學成績沒有差別。這說明族裔間SAT數學考試的分數差距很可能是家庭經濟條件造成的。其實這也從反麵證明了,SAT語文考試題目的確有族裔偏見。
 

抵製變革的SAT係統

在ETS工作了三十多年的弗裏德爾,為什麽是退休之後才發表那個研究結果呢?這事說來話長,背後的故事也挺有意思。

早在1987年,弗裏德爾就提交了他與ETS的同事共同完成的一份關於DIF的報告草稿。研究部門負責人要求修改。他提交了第二稿。他們仍然不滿意。弗裏德爾認為,有些意見是合理的,因為他的結論與其他研究相矛盾,部門負責人希望他從其他角度審核數據。但每次重新檢查都證實了最初的結果。當他被命令進行第十一次修改時,弗裏德爾開始懷疑ETS是否在以學術方式試圖阻止他發表“流氓”(rogue)結論。

該報告最終被接受了,但他進行後續研究的請求被禮貌地拒絕。於是弗裏德爾開始專注於提高預測題目難度的技術,並就此主題撰寫了幾份報告。但到了90年代末,他的所有研究計劃都被拒絕了。他知道他的主管對他的研究方向有看法,因此,他就在1998年10月退休了,並帶走了大部分舊數據。他想繼續這個研究。

SAT考試在向網絡化轉向。據說這會有助於減少族裔間的差距

弗裏德爾在其2003年的文章裏提出對SAT分數進行補償,他稱其為修訂版SAT,或R-SAT,該分數僅對難度達到一定程度的問題進行計算,在R-SAT上給這些題目更大的權重,這將“大大增加高分少數族裔的數量”,因為已經“有證據表明SAT語言部分存在雖是無意但又無所不在的文化和統計偏見,對非裔美國人產生了不利影響。”當將數據落實到具體案例時,他發現,如果給難題更多的分數權重,許多少數族裔學生的SAT成績會提高100分或更多。

弗裏德爾並沒有試圖估計有多少學生會從附加分中受益,但他認為其影響範圍應該足以使附加分有價值。比如,弗裏德爾發現一名非裔美國人(弗裏德爾的數據未透露姓名)的R-SAT語言成績為600分,而他/她最初的SAT語言成績僅為290分。弗裏德爾寫道:“該學生的附加分為310分——這是對他/她學術能力的一個驚人的、差別很大的重新評估。”可能有數千名學生在R-SAT上的得分比SAT高出100到200分。更高的分數可能意味著能否進入名牌大學。他們分數的提高也可能使他們有資格獲得數千美元的獎學金。

《大考試:美國精英統治的秘史》(The Big Test: The Secret History of the American Meritocracy)一書的作者尼古拉斯·萊曼(Nicholas Lemann)說,弗裏德爾的想法之所以失敗,技術缺陷是一個原因,另一個原因是ETS高管對必然的商業後果的恐懼:對那些來自富裕家庭,但學術表現沒有達到其背景所預期的水平的孩子來說,其分數等於是被下調了。

倒不是大學理事會不做努力,SAT這些年也發生了很大的變化,比如2005年的改革添加了30分鍾論文部分,現在的SAT又回到以前的1600總分,而且語言部分不再有類比題目。這些變化都被認為是有利於縮小貧富家庭孩子間的差距。弗裏德爾也說他喜歡大學理事會對考試所做的調整。

《紐約時報》對美國大學理事會在推出SAT的逆境分數後不久又在一片批判聲中將其放棄的報道。(“SAT ‘Adversity Score’ Is Abandoned in Wake of Criticism”《SAT“逆境分數”因批評而被放棄》

其實ETS內部還提出過其他版本的類似R-SAT的變革,但都沒有得到多少支持。為什麽,我們不得而知,隻能說SAT的改革舉步維艱。還記得美國大學理事會2019年5月推出的逆境分數(adversity score)嗎?當年秋季大概有100-150所大學使用了這個指數,但到了8月,理事會就宣布收回這個飽受爭議的東西,稱其將大學申請者麵臨的挑戰濃縮為單一數字的做法是錯誤的。

也許逆境分數的確是個還不成熟的東西,也許收回逆境分數隻是因為頂不住來自部分家長和學校的壓力。好不容易終於有個東西出台了,最後是這樣的結果,改革SAT有多難可想而知。但什麽也不做不是選項。就像弗裏德爾說的:實施R-SAT“費用其實是很小的,但道德義務卻是極大的。”

不是說必須采用R-SAT,而是說我們不能放棄努力。

 

擺脫係統性歧視需要打破常態

係統性歧視是無法以個人之力逃脫的。要去除這種歧視,必須打破社會常態。現在不少大學決定不再要求SAT成績就是這樣的實踐。

我們不是反對有一個公平和公正的衡量標準。應該說,一個公平、公正的標準是不可或缺的。那些不再要求SAT成績的學校,還是有GPA等其他標準可以參照,對不對?事實上,專家學者普遍認同GPA比SAT更能反映出學生的學習能力,也能更準確地預測申請人在大學的表現。

如果SAT有了根本性的改變,重新回來用SAT也可以是一個選項。什麽都不改變才是不能接受的。關鍵是,沒有一個強烈的外力推動,SAT可能永遠也不會有那種動其筋骨的改變。這才是那些大學放棄SAT的意義。
 

亞裔的不凡表現

寫此文的一個副產品是,發現亞裔的SAT成績很有特色。

下麵兩張圖我覺得合起來看特別有意思。兩張圖都是分別比較各族裔SAT閱讀(可以理解為語文)和數學的考試成績。先看上圖,1986-87學年到2004-05學年:左邊是閱讀,右邊是數學。可以看出,成績大致都是穩定的,而且各族裔之間的差距也基本不變。唯一有比較大變化的就是亞裔:兩個成績都穩定提高,其提升幅度遠遠超過其他族裔。有意思的是,雖然亞裔數學始終遙遙領先,閱讀卻不如白人,但追勢強勁,差距越來越小。

再看下圖,2020年的數據,這裏是閱讀和寫作分數混一起了(SAT的寫作是2005年新加的)。亞裔的數學和語文都領先於任何其他族裔了。問題是,這個“超越”的是閱讀和寫作的總分,如果單獨看閱讀又是如何呢?

SAT考試成績與種族/民族的關聯。圖源:國家教育統計中心(National Center for Education Statistics)

按種族或民族劃分的SAT考生達到大學準備基準(2020年)。圖源:布魯金斯學會(Brookings Institution)

上麵這組數據中亞裔的語文成績吊起了我的好奇心,我又去找來另一組類似數據(下圖)。這個是閱讀和寫作分別提供的,亞裔兩者都曾經分數不如白人。我把白人和亞裔的數據分別用紅框和藍框劃出來。可以看出,亞裔是猛勁地追,雖然寫作很快就超過了白人,但閱讀在該圖表的範圍內沒有追平。不過,最後幾年的閱讀和寫作總和超過了白人,和上圖是同樣的結果。不知道現在是不是閱讀單項也追上了。

1986-87學年至2012-13學年按種族/族裔劃分的大學申請人SAT平均成績。圖源:國家教育統計中心(National Center for Education Statistics)

說實話,我沒想到亞裔在語文上居然曾經比白人弱那麽多。也沒想到,要追上去需要花幾十年的時間。這個追趕勢頭,是因為亞裔額外的努力,還是因為越來越多的亞裔移民是高科技的,他們的孩子出生於高中產家庭,從而有先天的優勢?我想,很可能是兩個因素都有吧。不管怎麽說,亞裔的表現真的不凡。

但我又好奇,如果看同一批人,亞裔在學校課堂裏語文上的表現與白人相比的結果是不是與SAT的類似。如果亞裔在學校的語文成績是一直領先於白人的,那麽在SAT上的差距,是不是又一個SAT偏向白人的證明呢?直到讀了那個關於DIF問題的研究,我才恍然大悟:我的疑問不就是亞裔與白人在閱讀上是不是有DIF問題嗎?很可能亞裔在這方麵與黑人有類似的問題,即家庭環境中缺乏白人家庭的文化特征。

為寫此文,我讀了很多與SAT相關的資料,包括其曆史和公正性等等。其中有的文章的確提到有研究顯示SAT對亞裔有不利因素。希望有更多這方麵的研究。

如果真的是有這樣的DIF,那我們的孩子們最終硬是在考分上減小/消除了這個差距,太不簡單了!

參考資料

https://en.wikipedia.org/wiki/SAT

https://www.bestcolleges.com/blog/history-of-sat/

https://nces.ed.gov/programs/digest/d13/tables/dt13_226.10.asp

https://www.latimes.com/archives/la-xpm-2003-jul-27-me-sat27-story.html

https://www.nea.org/advocating-for-change/new-from-nea/racist-beginnings-standardized-testing

https://www.insidehighered.com/news/2010/06/21/new-evidence-racial-bias-sat

https://www.theatlantic.com/magazine/archive/2003/11/the-bias-question/302825/

https://www.ivyscholars.com/2022/07/27/are-the-sats-biased/

https://reason.com/2019/10/22/orchestra-study-blind-auditions-gelman/

https://academiccommons.columbia.edu/doi/10.7916/d8-bmtp-7q07

https://www.brookings.edu/articles/sat-math-scores-mirror-and-maintain-racial-inequity/

https://www.nytimes.com/2019/08/27/us/sat-adversity-score-college-board.html#:~:text=The%20College%20Board%2C%20the%20company,applicants%20to%20a%20single%20number.

本文為非營利調查新聞編輯室“Information Justice信息正義)”原創作品,《美國華人雜談》公眾號聯合發表。

撰文:溪邊愚人

編輯:新約客,溪邊愚人

[ 打印 ]
閱讀 ()評論 (14)
評論
半路過來 回複 悄悄話 看這種文章真的要多問幾個為什麽
笑薇. 回複 悄悄話 SAT被視為aptitude test, 當某次SAT考試成績高出前一次幾十分而被懷疑不被錄取的事。

亞裔成績提高和老溜第二代比例提高有關。如果家庭經濟背景和父母的教育水平的分析會幫助回答這個問題。

智商測驗文化差異是個大問題。

感謝分享!
JaxAbe 回複 悄悄話 俗話說,“沒吃過豬肉還沒見過豬跑嗎?” 黑人家庭沒有賽艇就不知道賽艇這個單詞?沒有受過芭蕾訓練就不知道芭蕾術語?這真是無稽之談。很多知識是通過閱讀書籍來認識和掌握的,所謂“間接經驗”。知識並不都需要親自體驗過才能掌握,所謂的“直接經驗”。SAT考題中的這種所謂“文化差異”對考分的影響基本可以忽略不計。如果因此得低分隻能說明學生“知識麵不廣”。差生的借口罷了。隻不過西方國家如今非常照顧差生的感受。
土撥鼠撥土 回複 悄悄話 經濟條件歧視就不要用人種舉例,人種歧視就不要講收入
土撥鼠撥土 回複 悄悄話 以後提交智商測試報告?

"SAT是一種能夠通過訓練提高成績的考試項目",那麽體育音樂是不是可以通過訓練提高成績呢?
mikecwu 回複 悄悄話 很好的分析!我當年考GRE的時候就感到裏麵太多生僻詞匯了。原來為了提高難度就必須選生僻詞匯,而這些詞匯都是在白人文化裏產生出來的,很多是他們的俚語,對他們來說並不生僻。

亞裔能夠趕上白人,說明亞裔既刻苦又聰明。雖然這些詞匯我們日常不用,但我們可以買書來背這些單詞。書是很便宜的,不到一百元就可以買到足夠的預備書讓你考個高分。因此借口窮,沒有能力去補習考試的說法是借口而已。真正原因是自己沒有能力考好,隻能指責這種考試不公平。

考試成績最終還是智力的體現。文章中說了,經濟條件相當的黑人和白人數學考試成績相當,就是很好的反映。經濟條件就是父母智力的體現,經濟條件相當的黑人和白人智力相當,他們的子女智力也相當,因此子女考試成績也差不多。
最後的老留 回複 悄悄話 從SAT的發展曆程可以看到,批評的自由是美國強盛的一個關鍵因素。作為對比,厲害國那個工農兵大學生的“美國反對美國”認識實在是低下,這也許是專製文化長期盛行的後果。
最後的老留 回複 悄悄話 樓主好文!樓主的文風是每個推論都有翔實的論據,沒有情緒化的論斷,我很喜歡這種風格。
武勝 回複 悄悄話 英語文化確以白人為主流,SAT“有點白”其實無可厚非。當然現在的英語載體也多元化了,SAT應適當反映這種變遷,有不足可改進,也可推動其它標準考試與之競爭。但標準考試與GPA作用不同,可衡量不同學校間的差別。名校若棄用SAT,又沒有其它相當的衡量,自然會反噬到自身。
localappleseed 回複 悄悄話 "SAT是一種能夠通過訓練提高成績的考試項目",這個沒錯,但SAT在不同種族的學生的成績與種族的智商IQ區別是一致的。而智商IQ一般與訓練無關。
Google“Race and intelligence”及Wiki可發現如下結論:
In the US, individuals identifying themselves as Asian generally tend to score higher on IQ tests than Caucasians, who tend to score higher than Hispanics, who tend to score higher than African Americans. Nevertheless, greater variation in IQ scores exists within each ethnic group than between them.
localappleseed 回複 悄悄話 如果SAT不公平,造成少選擇了非裔的好學生,那麽錄取的非裔應該是更加優秀的,那為什麽非裔學生的大學輟學率(college drop out)遠高於其他族裔?
自己Google“college drop out racial factor",
palmtree2005 回複 悄悄話 一點不考慮SAT沒法在學校的GPA之間比吧,有學校GPA容易
palmtree2005 回複 悄悄話 是不是老留開始到美國,改變美國亞裔人口構成呢?
helen_xu1111 回複 悄悄話 謝謝分享!角度很有意思!
登錄後才可評論.