平凸雜談

才高五鬥不覺恥,水灌一壇隻作癡。凸情不枉君付意,子誌難琢我化石。
個人資料
賈平凸 (熱門博主)
  • 博客訪問:
正文

Cross Admission,大學錄取的哥德巴赫猜想

(2022-02-22 12:18:55) 下一個

滿貫、大滿貫和超級大滿貫

在美本申請上,一直有一個神秘兮兮的問題,即cross-admission。每年有多少拿到多藤、加上斯坦福、甚至加上麻理工的滿貫、大滿貫的得主呢?這問題可以猜,卻沒法回答。

一個人能拿到所有哈、耶、普的Offer,叫做滿貫。如果是哈、耶、普,外加斯坦福,叫大滿貫。如果是哈、耶、普、斯,再加上麻理工,就叫超級大滿貫。2015年以後,越來越多的拿下多藤的近滿貫、滿貫的申請人把自己的經曆放到YouTube分享。而且每年藤校放榜日後,也總那麽有一篇滿貫文書火爆網絡。

有人 Po,有人火,熱鬧歸熱鬧。但那個問題,還是沒人回答得了。誰也不知道每年能有多少(1)超級大滿貫、(2)大滿貫、和(3)滿貫得主。那就更別提下麵這一連串更專業點的問題了

4)每年,有多少哈-耶雙連得主?

5)那,哈-普雙連得主呢?

6)那,哈-斯雙連得主呢?

7)那,哈-麻雙連得主呢?

8)那,耶-普雙連得主呢?

9)那,耶-斯雙連得主呢?

10)那,耶-麻雙連得主呢?

11)那,普-斯雙連得主呢?

12)那,普-麻雙連得主呢?

13)那,斯-麻雙連得主呢?

如果雙黃問題不夠刺激,我們再把專業度提高一層:

14)哈-耶-斯三連得主呢?

15)哈-耶-麻三連得主呢?

16)哈-普-斯三連得主呢?

17)哈-普-麻三連得主呢?

18)哈-斯-麻三連得主呢?

19)耶-普-斯三連得主呢?

20)耶-普-麻三連得主呢?

21)耶-斯-麻三連得主呢?

22)普-斯-麻三連得主呢?

而且,這問題還沒完呢,再加上下麵這四個:

23)哈-耶-普-麻四方連呢?

24)哈-耶-斯-麻四方連呢?

25)哈-普-斯-麻四方連呢?

26)普-斯-耶-麻四方連呢?

解開這一連串的問題,就能解開T5招生的一個秘密。這個秘密,T5們不說,人們都隻能當Gossip一樣瞎猜瞎傳。這樣的話,哈斯普耶麻就可以一邊任由各種錄取奇跡騙取你的感情,另一邊拿連年慘跌的錄取率來霸占你的勞動。

從 Frosh Survey 說起

錄取數據這個秘密,是T5的底褲。他們會習慣性地捂著它,除了每年露個錄取率來營造一下市場氣氛。底褲捂得最嚴的,是哈、斯、麻。他們仨在T5各據市場細分的一極,所以對賴在其他T5的競爭最不敏感。但耶、普兩家就稍有不同,他們各自的細分價值稍顯模糊,再麵臨著哈斯麻的競爭壓力,難免要更不淡定一些。所以會再多露一些底出來,從而勾引市場的興趣。

這其中,有一份普林斯頓的Frosh Survey。Frosh是大學一年級新生,跟Freshman同義。每個學校都會有這種Survey,但隻有普林會在Survey裏公布Cross Admission的統計數據。其他學校的Frosh對於Cross Admission問題,要麽是有數據但不公布,要麽就是幹脆沒數據。

 

frosh 1.PNG

斯坦福的Survey也應該有Cross Admission數據,但是從不公布。可是有一次,僅有一次,不知道是哪個校辦的秘書手潮,還是網管忘了加牆,讓Stanford Faculty Senate Minutes的記錄漏出網上,被人把數據記下來了。這是一個亞裔Lawrence Chiou,他是Harvard'14,Stanford PhD'18,他現在斯坦福做Data Scientist。讓我們一起感謝Lawrence  Chiou。

frosh 4.PNG

 

從這些數據,我做了一個基礎數據表格。這篇的聚焦在T5,所以其他藤校的數據先暫時忽略,以後有時間再跟大家做更深入的推演。 從這個表格裏的基礎數據出發,我們就可以相當準確地計算出以上所有問題的答案,即各種哈耶普斯麻組合下的Cross Admission的人數。

 

basic cross.png

從多藤到超級大滿貫的數據合成

關於這個數據計算的詳細過程,我就不囉嗦太多了。我隻簡單說一下合成其他空白數據的原則。首要原則就是對稱原則,即以對角線為對稱軸的兩個格子的數據,反映著同一對學校之間的交叉offer人數,這樣的人數(注意不是錄取概率)應該相等。次要原則是等比例原則,即構成矩形的四個小格的數據應該橫豎兩個方向都成比例。我們通過這兩個原則,就可以合成出其他所有空白格的數據。這就是雙錄取的全部概率分布情況。

basic cross 1.png

根據以上的數字,再加上各校年均招生的人數,我們就可以算出各種搭配下的雙錄取人數,這就是下麵的雙連表。所有的雙連錄取數字就此得解。請注意,雙連總人數2175,少於所有雙連數字相加的結果2537。為什麽呢?請讀者自己思考。要是想不明白的話,Top 20就不要申請了。但是哈佛和耶魯還是可以申的,因為他們都不會要求你達到嫩麽的quant。

dual #.png

人數不少哇!看見這個的人會首先感歎一下。我們來仔細分析一下。重合數字最高的是耶魯-普林的427,這說明兩校之間再招生價值的重合度最高,因為校際價值越重合,就會共同向越多的申請者發出offer。這並不在於他們官宣的價值,而在於他們看到同樣價值的申請者的真實反應(即發offer的概率)。其次普林-斯坦福之間、哈佛-斯坦佛的重合度也都很高。這就間接的證明了一點,斯坦福實際上在與東部院校全線展開競爭的。

更有意思的是,哈耶普斯四校與麻理工之間的重合度都很低。這說明麻理和大家的重合度都低得很,最低的是再哈-麻這兩所同城之間,每年的共同offer人數隻有50這個量級。隻有各自招生規模的2-3%而已。與麻理工重合度最高的,反而是遠在西岸的斯坦福,這符合我們的常識經驗。

下麵我們來解決三連的人數問題。根據雙連概率表,再加上條件概率的計算公式,就可以很方便計算出三聯數字。比如我們已經知道哈佛錄取人裏有耶魯錄取的概率,也知道耶魯裏有普林的概率,兩者相乘,就得到了哈-耶-普三聯的概率。如此,算出的三聯表格如下。我隻填了對角線以下的表格。對角線以上的表格,可以參考對稱原則來計算。

trio.png

用三連概率表格,我們同樣可以計算出何種搭配下的三連錄取的人數:

trio #.png

三連的人數就變少得可憐了,362人,隻有二連總數的15%(六分之一)。以哈-普-斯三連的人數最多(76),比藤校滿貫的哈-耶-普都更多出十幾個人來。這麽看來,人們習慣隻把哈耶普而不是哈普斯叫做滿貫,還是有道理的。哈-耶-斯、普-耶-斯的三連人數都差不多,在60人以上。有麻理工的三連裏,普-斯-麻的人數最多。同時具有哈-麻的三連都少得可憐。從前麵的哈麻雙連就知道,沾上哈氣兒的人,基本上就很難再混進麻團兒裏了。但無論如何,這些能在哈耶普斯四校之間拿下任意三個的,都是絕對頂尖的學生了。

還有更頂尖的四方連。我就不羅嗦算法了,直接上四連的概率表格和人數。能拿到T5中四連錄取的總人數在20人的數量級。我個人認為這個數字算的有點偏低,但數量級基本上靠譜,再多也不會超過50人。除了大滿貫哈-耶-普-斯之外,其他任何的四方連(即帶上麻理工的四連)就少得可以當沒有了。麻是最難進的(不是隻看錄取率數字那麽簡單),敢申的人就少的很,即使你是有哈耶普斯裏三連實力的人。

quadro.png

quadro #.png

最後,超級大滿貫,HYPSM五張通知書集齊的人,我算出來的結果是零。也許有,但這人數非常稀少了。我上次見還是2017年,我記得北達科塔州的一個白人小夥。極少數了,除了讓我們感歎一下,其實他對我們的申請沒什麽借鑒價值。被一群價值觀完全不同的學校都錄取,這個純屬運氣。

這些,對申請有什麽用?

滿屏的Gossip說完,哈喇子流了一地。這有什麽用呢?有用的話在下麵!

對於大多數T5申請人來說,都是有實力、但沒信心的人。要申請都是碰運氣,不申呢又白不申吧。所以你要是能拿到offer,也就是撞上一家的運氣而已。T5總共發出9700張左右的offer,給到7300人手中。這其中拿到僅僅一張offer的人,一共有5350人。看上去很多是吧,但其實裏麵有3870張是早申拿下的,而且這些人裏麵的70%有Legacy的。剩下的1480張single offer,會在19萬份Regular中找到主人,相當於0.7%的錄取概率。這跟媒體報道的3-5%RD概率之間相差甚遠。

singles.png

各家的情況如何呢?先說哈佛吧。他每年給出約1900張offer,其中1192張是給到了隻拿到哈佛的人的手裏了。這些哈佛single offer的學生,有858人其實在早申中拿到的,80%以上的人有Legacy,沒有legacy的早申offer也就不到200個人而已。對比早申數1萬多人數,如果你沒有Legacy,那麽你的早申錄取率其實隻有2%,根本不是宣傳的7%(2020年早錄)更不會是13%(2019年早錄)那麽高。在Regular階段去申的話,沒有Legacy的錄取率其實都不到0.6%。

耶魯和斯坦福的錄取率和哈佛類似,而且非Legacy錄取率更低。最慘的其實在普林。沒有Legacy的人在Regular階段去申普林其實就跟心理安慰差不多,他給你的single offer本來就很少。這基本上可以看出來,普林是一個招生價值觀相對更傳統和封閉的學校。他在識別申請者的時候,更多的會關注到傳統的精英價值觀上去。當你仿著對哈佛斯坦佛的那一套,把自己做成進步主義的profile給普林的時候,你可能已經走在了一條自裁的路上。

讀了這滿篇的數字分析,請大家不要把上麵的數字絕對化。這些事合理計算的結果,可以作為很好的定性參考。我想讀到這裏的同學,會自然地想到各校招生價值觀的差異化問題。關於這個問題,我們過去在美本文書講座和講座之後的文稿裏詳細闡述過。你可以去翻我的博客。

[ 打印 ]
閱讀 ()評論 (3)
評論
米湯 回複 悄悄話 分析基於Princeton n=207 survey樣本,當年common data 上麵1154 入學生,這個如何解讀是一個問題
賈平凸 回複 悄悄話 回複 '十月猴媽' 的評論 :

中一個都是麻煩
十月猴媽 回複 悄悄話 高!可以發表的論文。經常看一些競賽的camper上MIT, 心想那麽優秀的娃怎麽都往一個地方紮?數據說明了一切。看來T5中了一個歡天喜地,中了兩個猶猶豫豫,中了三個以上豈不是自尋煩惱 :P.
登錄後才可評論.