来源公众号:中国考试
引用格式:BENNETT R E, 金婧. 个性化测评:下一个测评前沿[J]. 中国考试, 2025(5): 1-9.
作 者
Randy E Bennett,男,美国教育考试服务中心(ETS)研究院评估创新主席。
翻译:金婧,女,教育部教育考试院助理研究员。
摘 要:传统意义上严格的标准化测评已是属于过去时代的理念,个性化测评才是未来的发展方向。之所以得出这一论断,是因为随着各国人口多样性的增加,标准化测评非但无法保障公平,反而可能会削弱其实现。实际上,教育测量领域内早已有一些个性化测评的实践先例。从这些先例中,可以提炼出个性化测评的通用方法,其中若干方案已在当前的实践中被广泛采用。不过,无论是现有方法还是更具前瞻性的人工智能测评方法,都存在一些问题,引起了考生、考试项目设计方与测评使用者等的顾虑和关注。本文简要回顾了标准化测评的起源与发展变化,探讨了两个教育测量领域的个性化测评实践先例,并详述了三类个性化测评的通用方法,最后阐述了笔者对于这一测评前沿方向的若干顾虑。
关键词:个性化测评;标准化测评;测评方法;教育评价与测量;教育评价改革
一、标准化测评的起源与发展变化
“标准化”一词最早出现在十九世纪末的物理科学文献中。二十世纪初,经由实验心理学发展,标准化的理念被带入教育测量这一新领域。标准化测评旨在通过平等地对待所有考生来创造相对公平的竞争环境。严格的标准化测评指所有个体在相同的条件下以相同的方式接受本质上相同的测验问题,并采用通用规则对回答进行评分。当考生群体具有高度同质性时,标准化测评通常能够达到极佳效果。在极限情况下,当所有考生在全部相关变量(除被测变量外)上都保持相同状态时,测验分数所反映的唯一特质即被测特质,外加一定程度的随机误差。
然而,当前美国以及众多西欧国家的人口多样性程度已达到或接近历史最高水平,Vertovec将这一现象描述为“超级多样性”(superdiversity)。在1980年至2020年的四十年间,美国白人人口占比从80%下降至58.4%;同期,外国出生人口比例增长逾倍,由6.2%攀升至13.9%。尽管当前外国出生的人口比例与二十世纪初标准化测评开始推行时相近,但新世纪呈现出更为显著的多样性特征。这种多样性不仅体现在种族构成层面,更反映于人口族裔的分布上——从以欧洲裔为主体到拉丁美裔和亚洲裔群体的显著增加,以及伴随而来的主要语言体系的多元化。此外,考试的普及程度与重要性在此期间也发生了巨大变化,使得标准化测试必然更加频繁地进入美国民众的生活之中。
当今美国人口的超级多样性具有重大意义,因其蕴含着显著的文化异质性。在超级多样性背景下,标准化测评可能再也难以起到创造公平竞争环境的作用。这是因为测评作为代表其开发者文化立场的具象化产物,本质上植根于主流社会群体的信仰体系、价值取向、认知范式、语言特征及观念。
二、个性化测评的实践先例
倘若严格的标准化测评不再能够行之有效地营造公平的竞争环境,那还有什么替代方案呢?可能的选择之一就是与其相对的概念——个性化测评。在教育测量领域,已存在诸多个性化测评的实践先例。《教育与心理测试标准》(Standards for Educational and Psychological Testing,以下简称《标准》)即是这样一个先例,许多美国考试项目都遵循该标准来进行考试设计与实施。2014年版的《标准》将公平性(fairness)阐释为根据考生个体特征及测试情境进行适应性调整,以便测试分数能够针对预期用途产生有效的解释。同时,《标准》指出,标准化测试的根本原则在于为所有考生提供同样的机会展示自己的能力水平,但有时也需要适当的灵活性(flexibility),才能为部分考生提供实质上的同等机会。例如,标准化测试过程中的某些环节可能会阻碍特定群体或个体真实展现自身能力,如身体残障、文化背景、语言背景、种族、民族、社会经济地位、衰老带来的限制等因素都可能造成挑战。在某些情况下,通过灵活调整标准化测试流程以满足特定群体或个体的需求,可以在不影响效度与信度的前提下有效提升评分的可比性。因此,可以说《标准》摒弃了对标准化测试的严格诠释,转而提出灵活性的理念。
个性化测评的第二个重要先例源自于美国考试项目多年来的运营经验,即在实施中提供《标准》所蕴含的灵活性。许多考试项目可以根据考生的能力水平进行灵活调整,通过适应性测试(adaptive testing)来匹配个人的知识和技能水平。例如,美国所有主要考试项目均会通过多种多样的修订和技术调整来灵活适应残障考生的需求,以便这一群体能够充分展现其知识掌握与能力发展水平。有一些考试项目实施母语灵活适应机制,美国有31个州规定可以在标准英语版本之外,采用西班牙语进行数学学校问责制评估(mathematics school-accountability assessments)。而如PISA这种国际评估项目则必须在语言使用方面具备灵活性,否则将无法实现跨国比较。还有一些考试会综合考虑考生的既有知识、兴趣以及身份背景等方面的差异性,如中国高考在选考科目上给予学生一定的自主选择权,以使其充分展现个人能力优势;部分美国大学先修课程(Advanced Placement,AP)的考试允许学生根据规定自主选择试题作答;而在其他一些考试中,学生则可在考试项目所设定的限制条件下自主设计题目作答。此外,不少高风险考试还在考试地点的选择上具备一定的灵活性,考生可选择在考试中心、家庭环境或办公场所完成考试。
虽然已有一些研究关注不同考试方案调整对评分的影响,但由于具体调整的不同,这些研究在数量及结论上均存在显著差异,仍需进一步探讨。即使如此,大部分考试项目及其使用者普遍认为,对于这些考试结果的使用目的来说,此类调整所产生的分数仍具备足够的可比性。
三、个性化测评的方法
美国考试项目中存在的诸多对标准化测试的调整可被界定为“微观个性化”,具体表现为通过适配个体特征来对测试进行不同程度调整。这类调整策略揭示了实施个性化测评的三类通用方法,每种方法均包含多样化的实施方案,其共同点在于摒弃统一化处理模式。这些方法根据考生的需求或个体特征实施差异化测评,旨在更有效地衡量其能力水平。
第一类个性化测评方法是机器驱动型(machine driven)。在测评领域中,机器驱动型个性化测评可视为自适应测试的一种泛化;在教学情境中,则对应智能教学辅导系统的适配机制。二者的目标均在于将考生(或学习者)的预估知识水平与后续试题或题组的相关特征(如难度级别、目标知识模块等)进行匹配。具体而言,可以运用人工智能(AI)技术,根据考生的既有知识与经验、语言偏好、移民背景、文化身份认同、种族/民族、特殊需求、问题解决能动性感知、兴趣、动机、自我效能感以及对表达方式与呈现形式的偏好等多元变量,实时调整测评内容、形式、作答方式等。尽管学习者模型等领域的研究已涉及上述部分变量,但目前尚没有测评系统可以大规模实现此程度的个性化适配。不过,鉴于AI技术的突破性进展,此类测评方法有望在不久的将来得以实现。
第二类通用方法与机器驱动型存在本质差异,属于考生驱动型(examinee driven)。其核心理念在于通过测评方式的设计,使个人能够充分运用自身特质与偏好来充分展现能力水平。相较于机器驱动型方法必须预先掌握考生个体特征的运作机制,考生驱动型方法仅需测评设计者把握相关特征在被试群体中的变化范围,进而在设计中充分考虑这些变化即可。此类个性化测评已有许多大规模实际操作的范例,最具代表性的有AP课程和国际文凭(International Baccalaureate,IB)等项目。这些项目主要通过两种途径实现个性化适配。其一为试题自选机制,典型范例可见于AP课程的美国史、欧洲史和世界史考试中。以美国史考试为例,考生需从两道简答题、三道论述题中各选择一道题目作答,各题目选项在题型结构上高度一致,仅在历史时期上有所不同(如美国内战与第二次世界大战)。其二是允许考生在考试项目规定的限制范围内自主设计问题,该模式应用于AP课程的计算机科学原理、非裔美国人研究、学术研究及艺术设计等科目。在学术研究科目中,测评要求考生完成为期一年的自主选题研究项目,撰写提交一篇长篇学术论文并进行陈述和答辩。
第三类通用方法是混合式测评,即机器驱动型与考生驱动型相结合。与其他测评方法类似,该方法也可以有多种实施方案。其中一种是在测试前或测试过程中,由机器生成一系列问题,然后利用考生的反馈实时调整测评内容。这类问题可以包括:你希望自主选择数学题目作答还是回答指定题目?你是否希望为数学题目选取特定的应用情境?如果是,请问你倾向于选择何种类型的情境?你是否需要将问题情境设置于特定的文化背景中?若需要,请指明具体是哪种文化。你是否需要一份母语词汇表?若需要,请指明具体语言。
表1是一个为初中生设计的简单假设示例。该示例的简单之处在于仅考虑了考生的一个特征,即兴趣偏好。考生需通过输入关键词或短语表明自己的兴趣偏好,系统随后依据输入内容生成相应情境的数学应用题。表1中所列的问题由DeepSeek基于以下提示生成:设计几道主题各异但结构一致的代数应用题,分别以《三国演义》、《西游记》、《王者荣耀》、防弹少年团(BTS)以及凯蒂猫(Hello Kitty)为问题情境。
需要说明的是,该示例展示的仅是一种非常表面化的个性化测评形式。即便如此,仍可从中得出两个重要启示。其一,通过让学生自主选择展示数学能力的问题情境,可以提升其参与度、动机及相关既有知识的激活水平,且这一观点已得到实证研究的支持。其二,机器驱动型实施方式更有可能会刻板地将与凯蒂猫或BTS相关的题目分配给女生,而将《王者荣耀》相关题目匹配给男生。相比之下,采用混合式测评方法则可以让偏好电子游戏的女生选择《王者荣耀》问题情境,而让喜欢流行乐团的男生选择BTS情境。
四、对个性化测评的顾虑
笔者对个性化测评的未来发展仍抱有许多顾虑,其中既包括对个性化测评总体的顾虑,也包括针对机器驱动型测评实施方式的顾虑。
(一)对个性化测评的总体顾虑
第一,目前尚没有共识性的理论或框架来指导测评设计者如何根据考生特征进行适应性调整。虽然2014年版的《标准》提及了灵活性概念,但并未对其作出明确定义。尽管当前涌现出一些新兴理论及暂行设计原则,但应将其视作研究探索的起点,而非可指导实践操作的指南。
第二,实施个性化测评的运作模式在很大程度上是由考生驱动的。这些模式高度依赖于考生的选择,这就使得如何选择最能展现个人能力的问题这一技巧也被纳入了测评范围。然而,自主选题机制未必适用于所有的考试项目、测评目标或考生群体。例如,低年级学生就可能无法有效地做出适当的问题选择。
第三,实施个性化测评的前提是将问题与考生的兴趣、既有知识、身份等特征相匹配。然而,在这方面做得越成功,就越可能会高估考生在不匹配的情境中的能力,即那些他们不够熟悉、缺乏兴趣或无法产生认同感的情境。而这类情境却可能恰是考生在进行学术研究和进入职场时需要熟练应对的。此外,若仅在测评中设置与考生背景相匹配的问题,可能会限制其学习能力的拓展,进而影响他们在其他情境中有效完成任务和目标。
美国心理测量学学者Messick出于促进学习的目的,提出了“系统性教学错配”(systematic instructional mismatching)理念,主张在教学中适当给学生布置与其特征不匹配的任务,以培养认知灵活性并促进技能与知识的迁移。此外,任务错配所引发的潜在冲突与模糊性,还可能促进批判性思维的发展。Messick的理念实际上指向个性化测评的重新界定,即不仅要实施适配任务的测评,也需纳入非适配任务的测评,并针对两类任务分别进行评分。这样的测评设计既能更好地反映考生当前的能力局限,也能为教学实践提供更有针对性的指导。显然,能够有效处理适配与非适配任务的考生,其教学需求有别于仅能应对适配问题的考生。
(二)对机器驱动型个性化测评的顾虑
首先,机器驱动型个性化测评模型的有效运作需满足极高要求。一是需确定合适的变量以便输入系统作为个性化调整的依据,这些变量包括(但不限于)既有知识与经验、语言偏好、移民背景、文化身份认同、种族/民族、特殊需求、问题解决能动性感知、兴趣、动机、自我效能感以及对表达方式与呈现形式的偏好等。二是需要能够对选定变量进行有效测量。其中一些变量可能相对容易测量,但另一些则可能更具挑战性。三是需要了解如何实时调整测试内容、形式、作答方式等,以优化某些测评结果。但关键问题在于:应针对哪些结果进行个性化优化?是提升应试表现、增强参与度、提高作答动机,还是提升公众对测试公平性的感知,抑或兼顾所有维度?如前文所述,目前尚未有这种大规模个性化测评的实际应用范例,这在很大程度上要归因于其极高的相关要求。
其次,机器驱动型测评方法存在潜在的偏见风险。虽然考生驱动型方法中同样存在偏见问题,但机器驱动型方法由于其快速增长和广泛存在而使这一问题尤为凸显。从人脸识别到信贷评估,再到预测性警务系统,各类AI应用场景中都有关于偏见问题的报道。针对这个问题,人工智能领域当前主要聚焦于训练数据对目标群体的代表性上,因为AI模型会继承这些数据中的固有偏差。然而,偏见可能还会来自其他方面。例如,美国人工智能开发者群体与美国公立学校学生群体在种族、社会经济背景、教育机会等人口统计学特征上存在显著差异,这种差异可能导致前者不能准确了解后者的需求。
最后,机器驱动型方法存在决策可辩护性问题。测试机构与主办方须对其所提供的个性化测评项目承担问责义务,但由于AI模型普遍具有“黑箱”特性,其决策过程不可检视、不可解释、不可追溯。因此,当有考生质疑自己所接受的个性化测评并对成绩提出异议时,考试机构和主办方将陷入难以自证的困境。要追溯AI模型如何从个体特质推导出特定的测试调整方案,即便并非绝无可能,也将面临极大技术障碍。
人们对偏见和可辩护性的担忧促使了监管措施出台,其中最具代表性的是欧盟2024年颁布的《人工智能法案》(Artificial Intelligence Act)[38]。该法案将AI应用划分为三个风险等级。其中,高风险系统必须遵循劳动密集型要求,包括与个性化测评具有同样使用目的的系统。根据该法案附录Ⅲ的规定,这些目的包括:1)决定或分配个人进入各级各类教育机构及职业培训机构的入学资格或录取资格;2)评估学习成果,包括这些成果用于指导在各级各类教育机构及职业培训机构中的自然人的学习进程;3)评估个人将接受或能够获得的适宜教育水平。
监管法规的出台反过来推动了由AI开发商及为AI用户提供咨询的机构所主导的“负责任的AI”(Responsible AI)原则制定,其中既包括IBM、微软、谷歌、亚马逊网络服务、埃森哲、英特尔、普华永道和安永等科技及咨询机构,也包括多邻国(Duolingo)英语考试、培生(Pearson)和ETS等测评机构。根据不同机构的性质,其动机也呈现出多样性,有的通过影响政策制定与公众认知规避高成本监管,有的开拓咨询业务领域,还有的致力于提升AI应用质量。
那么,什么是负责任的AI?它是一套因机构不同而存在差异的原则体系,但也存在大量重叠。IBM的原则较有代表性,被称为“信任支柱”(Pillars of Trust)。其首项原则是公平性(fairness),包括多元化研发团队、使用能够恰当代表目标群体的训练数据、对AI算法施加限制以防止产生偏见、通过实证检验以验证这些限制的有效性、设立审查委员会以监督政策实施及执行效果。其余“支柱”包括稳健性(robustness)、隐私保护(privacy)、透明度(transparency)和可解释性(explainability)。ETS则从测评角度提出了相应原则,包括公平与减少偏见(fairness and bias mitigation),隐私与安全(privacy and security),透明度、可解释性与问责制(transparency,explainability,and accountability),教育影响与诚信(educational impact and integrity)和持续改进(continuous improvement)。
在所有原则中,人工智能领域一直格外关注透明度与可解释性这两个因素,于是一个新的研究子域应运而生,被称为“可解释的AI”(Explainable AI)或XAI。尽管定义各异,但笔者认为可以从三个方面界定AI应用的可解释性。其一是透明(transparent),即AI模型的样本选择、训练、测试及评价可以被充分解释并合理论证;其二是可解释(interpretable),即AI模型的运作与决策可以用一种易于理解的方式进行描述;其三,也是最重要的,可追溯(traceable),即AI模型从输入到输出的每个环节均可逐步验证。对于个性化测评而言,可追溯性意味着能够了解特定考生特征与系统提供的问题内容、形式、作答方式及其他调整之间的映射关系。未来在个性化测评工作中应用以上这些要素时,可依托于以往在测试公平性领域的研究成果。
需要说明的是,笔者诚然对个性化测评抱有许多顾虑,但仍坚信这种测评方式切实可行。事实上,它早已以考生驱动型的形式出现在现行测评中,而且未来将逐渐普及,甚至包括通过机器驱动型测评方式进行广泛应用。这种信念源于技术创新史的经验启示,许多在当时看似难以置信的办法最终成功解决了极为棘手的问题,如东汉时期张衡发明地动仪及其所启发的现代地震预警体系的发展便是典型例证。
五、结束语
在人口结构呈现显著多样性的情况下,严格的标准化测评未必能够有效发挥作用,创造公平竞争环境,促进公平比较,反而可能对那些认知方式、语言、思维视角、信仰和价值观与测试所体现的特征存在差异的个体造成不公。这种现象在高度同质化的社会同样存在,如农村/城市或不同社会经济阶层之间可能存在显著的文化差异。对于所有这些情况,可以通过战略性、审慎地调整测评方式,充分考虑考生的社会、文化和其他特征以及其所处环境特质,使测评不仅更加公平,而且更加有效。这种策略性调整既可以包括将呈现的问题与考生特征相适配,也可以包括系统性地设置非适配问题来测评考生的能力界限。个性化测评的实践先例可见于《标准》和美国大多数主要测试项目的实际运作中。从这些实践中可总结出三类个性化测评通用方法:机器驱动型、考生驱动型及二者混合型。这些方法也会使用严格意义上的标准化测评的某些方面,如包含所有考生均需作答的锚题、统一施测条件、采用统一评分标准等,从而在同一项测评中实现标准化与个性化的有机融合。尽管对个性化测评(尤其是机器驱动型)还存在许多合理性质疑,但笔者认为严格意义上的标准化测评已经成为过去式——现有的主要考试项目已通过多种形式不断突破其边界,个性化测评才是代表当下以及未来的发展方向。
近期评论