哪些美国大学喜欢录取同一个学生 | 大数据助力留学新时代

出国留学2020-10-16 09:37:20


本文作者:Adam Adler,斯坦福大学面试官,耶鲁大学法律博士,斯坦福大学学士。想参加Adam上海北京的美国本科数据分析讲座请看文末! 


大家好!


最近这些年,我花了很多时间和精力,收集了大量关于美国大学本科招生过程中的数据。我做这个项目的目的,是为了建立起一个以数据为基础的模型,用于预测一个学生能被某一所高校录取的可能性。现在这个项目还没有完成(总是会有新的数据不断产生!),不过我觉得我们已经有足够多的数据去发现一些有趣的现象。今天,就来和大家分享一下!


我写这篇文章的数据,来源于一个包含了上千条美国本科申请数据信息的数据库,而该数据库的信息,是从一个对本科学生和即将毕业的高中生的深度调查中得来的。


在人们谈论大学申请时,讲到“数据”,很多时候会首先想到GPA(平均成绩)和各项标准化考试的成绩。这些在申请中的确是很重要的指标(从统计意义上来讲,被哈佛录取的学生的SAT分数,比被哈佛拒绝的学生要高100分左右(α=.05))。但除此之外,其实录取决定的产生,还和很多其他的重要因素相关。的确,学校的现任招生官们都喜欢说他们采用的是“全面的审阅流程”,没有什么特别的决定性因素会影响你的录取结果。


那么,这个“全面”的流程,究竟包含着一些什么呢?想理解这个过程,有一个简单的方式,和一个复杂的方式。复杂的办法,就会包括搜集大量数据,并利用先进的统计技术处理数据(例如用回归、随机协变量分析、决策树模型等)来找到这些因素与录取结果之间的关系。这个是完全有可能实现的(正是我目前在做的研究!)不过解释起来非常费劲,听起来也十分神奇。当然你也可以选择简单的方式(相对而言),即利用我们对申请流程的已知信息,来帮助自己最大化申请的几率。


那我们到底是如何处理这些数据的呢?由于我们的数据是从学生调查中得来,也就是说我们的调查是以一个学生为单位,而不是一份申请为单位。这就意味着我们不是拥有一堆完全无关的申请。相反,因为大多数学生同时申请好多所学校,每个学生的调查中,包含平均大概4.8份的学校申请(不包含提前申请)。而且有很多学生在选择申请的学校中有重合的地方,这些数据可以帮助我们观察,学校与学校之间所做出的录取决定有没有共通点——他们是倾向于作一样的决定,还是相反的决定。


我们来一起看一些数据吧。


首先,哪些学校倾向于作出相同的录取决定?




这些学校像是“好朋友”一样,倾向于作出同样的决定(不管是录取还是拒绝一个学生)。确实,这个结果并不令人吃惊。就拿加州大学系统的几所分校的结果来说吧,这些大学都在同一个系统中,很多学生会用同一份申请材料去申请这几所学校。所以他们(尤其是一些不太挑人的学校)给出同样的录取结果也在意料之中。


那么,哪些学校倾向于作出不同的录取决定?




从上表我们可以看到那些特别“挑人”的学校(像哈佛、耶鲁分别只有6%和6.3%录取率这类的学校)会倾向于,和不那么“挑人”的学校,作出不同的录取决定。我们接着往下分析。


在那些总是做相反决定的学校之间,有多少是因为其中一所学校总是倾向于拒绝更多的学生呢?即一所学校总是给学生发拒信,另一所总是在给学生发录取。


同时申请了两所学校的学生分别被拒的几率多大?




上表显示出的差距,主要的原因是,比较难进的学校拒绝了一批被比较容易进的学校录取的学生。确实,我们的数据显示两所学校的排名相差越大,两所学校作相反的录取决定的几率也就越大(r=-.25)。如果我们排除掉州立大学与州立大学之间的组合,这个趋势就更明显(r=-.42)。


当然,这些信息也不新奇——顶尖大学拒绝掉一大部分被非顶尖大学录取的学生有什么好奇怪的呢?如果我们把我们的数据分析,聚焦到有相似录取率的学校之间,会有什么结果?


在录取率相似(相差<0.5)的学校中,哪些学校倾向于作出相同的录取决定?


这个问题看上去很长,但说白了就是我们想去掉那些录取率差别很大的学校组合。比如一个学校(如哈佛)基本上会拒绝掉大部分同时申请了这两所学校的学生,而另一所学校(如波士顿学院)只会拒绝一小部分。


这里显示了录取决定差别最大的一部分学校,而且造成录取差异的并非像之前讨论过的——同时申请两所学校的学生总是被其中某所学校拒绝。




这些学校组合考虑起来非常有意思,因为他们录取决定不一致的原因可能是多种多样的。一些学生被第一所学校录取了,被第二所学校拒绝了;而另一部分学生却被第一所拒绝了,被第二所学校录取了。这个不同,表明这些学校在审核申请材料的时候,所青睐的点不一样。


为什么这些数据和你有关呢?我这里可以讲一些非常实用的应用。


首先,这类信息可以帮助学生决定选择申请什么样的学校。很多学生申请多所学校来最大化自己成功的几率。如果(如上述数据显示)一些学校倾向于作类似的录取决定,一个学生可以通过申请那些“倾向于作不同决定”的学校,来规避录取的风险。同样的,如果一个学生有理由相信(可能从其他的一些数据分析中得出)他能够被某所学校录取,那么他也能推断自己也很可能被与之录取相似性大的学校录取。


其次,这组数据为建立一个更强大的预测模型打下了基础。不同学校之间的录取决定有关联(无论是正相关,还是负相关),就意味着一个学生被某所学校录取的几率,能够预测他被另一所学校录取的几率。换句话说,与其建立各个学校分开独立的模型(比如哈佛建一个,斯坦福建一个等)我可以建立一个统一的模型,同时预测多所学校的录取结果。这马上就能变成非常有用的工具,因为这意味着我们针对每个学生的调查,不仅告诉我们关于调查问卷中的学校的有用信息,还能反映和这些学校录取决定有关联的其他学校的信息。


第三,这个信息为不同大学里的学生群体构成提供了新的观点。如果两所学校倾向于录取类似的学生,那么这两所学校很可能有相似的“性格”。这并不是绝对,但却是一个值得考虑的,非常有意思的现象。如果一个学生参观了卫斯理大学,并且和那里的很多学生相处很好,那么这个学生也应该考虑一下瓦瑟学院(这两所大学大概91%的情况下会做出相同的录取决定)。


最后,很重要的一点,对于这篇微信文章中讨论的数据我们还是要有清醒的认识。相互关联,并不意味着有因果关系。就算两个学校倾向于作类似的决定,并不意味着提高你在其中一所学校的录取几率,就一定能够提高你在另一所学校的录取几率;当然你在其中一所学校的录取几率降低,也不意味着你你在另一所学校的录取几率也降低。相反,这些大致的趋势,只是表明各个学校的录取决定不是完全独立的。这揭露了一种可能——A学校作出录取决定的原因,很可能是B学校作出录取决定原因的一部分变量。


在和你们说再见之前,再给你们个小礼物。下图显示了哪些学校同意其他所有学校的录取决定的概率最高。


哪些学校最喜欢“随大流”?




哪些学校最喜欢“唱反调”?



欢迎大家参加Adam在上海和北京的讲座



点击阅读原文报名