来源公众号:北京教育学院学报 作者:徐扬 徐培培 黄瑄 徐峥

徐 扬
作者简介
徐扬,北京教育学院数学与科学教育学院副教授,教育学博士,主要从事生物教育、健康教育研究;
徐培培,北京市房山区教师进修学校教研员,主要从事生物学教学研究;
黄瑄,北京教育学院数学与科学教育学院讲师,教育学博士,主要从事生物教育研究;
徐峥,北京教育学院数学与科学教育学院讲师,自然科学博士,主要从事生物教育研究。
摘 要:在人工智能技术赋能的背景下,综合运用DeepSeek、Kimi、豆包、秘塔等多个人工智能技术平台,构建个性化智能体,通过基于生成式人工智能技术确立主题、训练人工智能体、基于目标预设的人机互动模式实现试题命制与修正、生成式人工智能赋能人工检测修订四个阶段,构建出基于生成式人工智能的试题命制路径,实现对学生评测试题的精细化设计。学生测试结果表明,生成式人工智能辅助能够使试题命制更加科学、精准、便捷,路径中的持续反馈机制有助于实现教学改进。
关键词:生成式人工智能;试题命制;高中生物学
基金项目:北京教育学院重大课题“基于学习进阶理论的科学教育教学模式研究”(ZD2024-03)
一、问题提出
在早期计算机辅助人类学习的实践中,人们发现计算机辅助学习模式在应对复杂情境问题的过程中往往表现出一定的局限性。例如这种辅助学习模式只能被动地回应和接收来自人类的提示语,缺乏基于复杂情境的人机互动,并难以模拟出真实命题的实际需求。随着近年来人工智能的发展,人机互动已经从原有的静态交互过程逐渐转化为动态协作过程。然而,虽然人工智能所表现出的强大文本生成能力已经能够为实验报告及学科写作提供持续性的支持,但其在深层次的学科分析与推理方面仍表现不佳,这也让人们对其试题命制能力存在诸多疑虑。造成这一问题的原因,一是原有算力网络的局限性导致人工智能无法应对多元化的算力场景和复杂化的业务需求,特别是对于复杂情境的推理和演绎功能仍然存在一定的困难;二是基于真实情境的试题命制素材往往来源于真实的发明创造、科研课题以及自然现象等,这些素材包含了客观世界中的多重影响因素,但因人工智能尚未被训练得和真实世界完全匹配,有些因素考虑不到。例如在数学建模类试题的命制过程中,人工智能有时会忽略现实存在的客观约束条件,容易造成题目的设置缺乏实践应用性;三是同质化严重与创新性有所欠缺,人工智能在进行题目设计过程中,会过分依赖于网络中现有的大量文本数据,而这些用于训练的网络素材来源不明,容易让学生陷入静态化模仿陷阱之中,特别是对于复杂情境题目的设计(如案例分析题),人工智能难以具备类似于人类教师的情境构建能力。以往研究表明,在早期大语言模型ChatGPT 3.5自动生成的60道免疫学多选题中,25%的题目答案存在误导性错误。2024年高考期间,不同大语言模型竞相答题,使得高水平试题的命制成为检验大模型能力的重要工具。但是从检测结果来看,受限于模型能力,大模型偏科现象严重,在文科试题作答中的表现远远好于理科,这也预示着其在理科试题出题方面存在先天不足。在高难度闭卷问题的命制方面,由于人工智能直接呈现的题目往往会出现正确率不足、生成内容缺乏深度、逻辑准确性和一致性欠缺等问题,也让一些试图开展人工智能辅助命题的探索者们望而却步。
试题命制承载着新时代教育评价的育人使命与功能,不仅要考查学生的问题解决能力,还要考查教学中学科核心素养的落实程度。在知识信息大量积累的时代背景下,如果仍然单一地采纳传统的人工命制方式,则会对未来试题的精准化和适配性产生一定的影响。传统理科试题命制中,为了使试题的命制与学生的真实体验或者与科研场景进行更为适切的结合,往往需要出题者自身具备较高的学科知识和技能储备,熟悉相关学科史和近年来学科领域的先进技术动态,即需要命题者前期开展大量文献的检索和翻译工作,同时具备较高的外语水平和科研能力,这在某种程度上为人工自主试题命制带来了极大的挑战。可见,常规的训练模式难以在短时间内将一名普通的学科教师培养成熟悉试题情境领域的专家,能够迅速地从海量的研究文献中寻找到合适的教学素材,同时保证正确答案的唯一性,从而设计适合评价学生核心素养水平的情境题目。
基于此,本文在人工智能赋能基础教育的背景下,借助多元化的人工智能辅助工具,基于高中生物学教学中真实情境问题和学科前沿,命制出适合评估学生知识结构、学科核心素养的试题,以实现“以评促学”理念。
二、生成式人工智能赋能高中生物学试题命制的路径
本研究团队通过个性化人工智能体的构建,针对北京市某区高中生物学一道情境题目“构建基因工程菌降解生物滞留池中多环芳烃(Polycyclic Aromatic Hydrocarbons, PAHs)”进行命制,经历了基于生成式人工智能技术确立主题—训练人工智能体—试题命制与修正—人工检测修订四个阶段(图1),引导人工智能辅助试题的命制,通过构建真实情境问题,综合评估学科核心素养的落实情况,并基于学生测试的数据反馈,调整试题的出题方式,再根据学生学习的结果性评价做出精准的反馈,为试题命制提供新的思路及路径。
图1 基于生成式人工智能的试题命制路径
(一)基于生成式人工智能技术确立主题
在“教—学—评”一体化的试题命制导向下,教育领域原有的碎片化、点状式和零散化的出题模式已经不再适应于当前全面育人的理念,试题的命制也已经从原有对学生知识记忆的考查模式逐渐走向了情境化、引导性和探究性的出题模式,期待学生能够在独立思考和体验试题的过程中,逐步形成具有结构性的知识体系和完整的生物学相关概念,即学生将在教师设计的考试题目中,参与一个具有思维挑战的探究过程,经历一个完整的科研过程,并在测试过程中了解学科的基本思想和研究方法。这就综合考查了学生的认知水平、探究水平、实践能力以及学生应对真实情境中复杂、陌生情境时的外显行为。因此,试题主题的选择和确立与试卷考查的知识领域和能力层级密切相关。每道考查题目都应充分考虑其内容的设置、能力层级的划分、预估难度以及分值的分布情况,使其具有学科的科学性和客观性。
主题确立的首要条件是命题者基于生成式人工智能技术,对评价试题的分布和题目类型进行评估,判断题目所承载的评价功能和学科内容范畴。如果题目所承载的功能属性定位于学生某一个阶段的综合能力评价,那么题目应承担一个大概念统摄下的一个单元或者几个单元的内容。在题目的形式和类别上,如何保证题目主题的选择更加精准和科学?首先,命题者需要在前期设计的过程中,综合考量以往试卷中相似题目的类型、难度和呈现方式等相关因素。其次,好题目的设计不会以知识记忆的形式出现,需要与真实的科研前沿信息、科学史或者学生生活密切相关,且不采用虚假的情境问题作为驱动问题。最为重要的是,无论选择怎样的情境问题和题型,都要以课程标准中具体的学业水平要求为依据,因为题目只是评估学科核心素养水平落实效果的一个测评工具,切不可为了片面地追求题目的外在形式,而忽视了试题本身的学科育人价值。例如本研究中的题目重点考查普通高中生物学课程标准内容要求的概念5“基因工程赋予生物新的遗传特性”,试题考查对象为高二年级学生,题目适用于高中生物学的复习测试,结合课程标准、教学内容以及历届考查试题的分布情况,将考查的大概念进行具象化,从而确立主题,选择了微生物相关章节的内容,利用生物基因工程改良菌种情境,探究微生物如何实现土壤中污染物的降解。
(二)训练人工智能体
已有的人工智能平台在设计试题时往往先通过网络大数据进行检索,缺乏专业性和科学性的资源审核环节,教师如果直接利用该试题设计的输出结果,可能会出现题目缺乏真实情境、题目与课程目标之间不匹配、题目设置难度两极分化等现象。特别是当题目情境过于复杂时,人工智能往往无法有效地解析题目设计中隐含的真实意图,导致题目无法考查出学生高阶思维的具体表现。
为解决这一现实问题,首先,从构建人工智能体的前期准备工作入手,增加后期定量研究测试的环节,分别设置进阶式的人工选择环节,使试题设计能够最大限度地符合教学目标和高水平测试需求;人工智能在题目设计中的高质量融合,在减少人工题目设计工作量的同时(例如文献关联、图片查找定位、题型转化等),也使得试题的设计更加科学化、精准化、便捷化。其次,人工智能体的构建往往需要教师在题目设置之前提供优质的数据资源。一方面,可以通过人工智能平台协助查找并下载相关文献作为补充。这里值得注意的是,“人工智能幻觉”经常会根据需求者的要求提供一些虚拟的文献来源,这就需要通过追踪文献来源或者要求人工智能提供文献来源的有效链接进行查找确认。[10-11]另一方面,教师可以通过学术公众号中前沿科研成果模块、科学类优秀博士学术论文库、PubMed等平台,查找优质的素材来源,链接相关主题内容。在构建个性化的人工智能体过程中,命题人员可采用专家思维引导的模式,持续训练人工智能体,其中最为重要的环节就是给予人工智能体优质的学习资料,例如提供历届优质试题的出题模式、真实情境的引入方式。最后,注重人工智能与人工校对之间相互协作,分别发挥双方在早期优质资源的选择以及后期专业性训练方面的优势。例如,对于查找文献、提取重要信息等基础性的工作,人工智能往往呈现出独特优势,可以减少人工时间和精力的消耗,大大提升素材资源整合的效率。而人工则可以利用以往学生学情观察、教师教学经验,有效把握题目的适切性和学业水平的具体表现考核方式。两者的有机结合,可以在一定程度上增强命题的科学性,也使其具有一定创新性。
(三)基于目标预设的人机互动模式实现试题的命制与修正
传统通过人工模式开展的试题命制,往往需要经历长时间的打磨和分析周期,需要出题者具有较高的评价能力,对普通教师来说实践和操作难度较大。而通过给人工智能平台提供具体的提示指令,就可以赋予其专家思维,使其最大限度地接近出题者对题目的预期评价目标,对学生核心素养落实情况进行评估。那么如何将预期评价的目标转化为具体题目的考核要求?首先需要构建专家思维提示语,并持续地为人工智能体提供具有专家思维的提问(表1),逐步引导人工智能平台拥有处理复杂任务的能力。这些提示语并不是通过一次简单的对话就可实现,前期需要出题者反复思考和精心修订,以确保后期人工智能可以更加清晰地了解出题者的测试意图和题目呈现方式。在输入具体提示语的过程中,出题者可以通过引导语的精准指导,帮助人工智能开展相关题目的逐层设计。引导语需要涵盖三个部分的重要信息:题目需要前期链接哪些相关学习文本资源(历届经典试题、学术文献等),人工智能需要完成的核心任务是什么,以及这些任务的输出形式和具体要求有哪些。在具体实践探索中,研究团队发现,当教师尝试采用不同的指令、平台或变更提问方式时,生成的结果也往往具有较大的差异,因此前期需要出题者明晰所提问题的指向性和评价标准,综合利用不同平台的优势,分批保留不同人工智能协作平台的语言交流信息以及输出结果,便于知晓不同平台在执行差异化任务时的不同偏好。这对后期采用更合适的工具开展更为匹配的工作具有一定的作用。
表1 “构建基因工程菌降解生物滞留池中多环芳烃(PAHs)”的情境试题设计中人工智能体引导语示范
可见,人工智能不仅能够作为试题生成的工具,还扮演着收集反馈与分析的重要角色。在人工智能体的训练过程中,基于学生的学习数据和反应能够为教师提供即时的反馈,帮助教师了解试题的实际效果与学生的掌握情况。实践中发现,人工智能不能很好地针对教学目标中思维层面的学习目标进行试题命制,因此仍然需要出题者在前期设计过程中提供优质的模版案例,以方便人工智能进行持续的学习,同时动态反馈与协同优化设计的试题题目。在试题命制过程中,出题者也应保持开放与包容的态度,与人工智能保持互动与合作,并通过人工校对以及学生实际测试结果的反馈进行调试。
(四)生成式人工智能赋能人工检测修订
试题命制的过程往往需要几次迭代、持续修订,才能最终获取令人满意的题目(图2)。这种迭代首先要把人工智能体培养成类似于学科专家的辅助工具,通过让人工智能辅助产生相应的材料资源,例如通过秘塔在有限的学术资源库中开展相关文献题目的检索,并根据要求呈现具体的问题形式以及综合考查学生的试题类别与内容。然后,通过人工修订的方式对首次生成的评估题目进行修订,分析题目中存在的试题条件不充分、考查目标不精细等相关问题并进行调整。在第二次迭代过程中,命题者依据人工智能提供的初拟题目,开展研讨与筛选等相关工作,重点考核资料的补充情况以及问题分析中情境素材的全面性和科学性。在完成人工校对之后,需要确认试题已经能够在一定程度上满足对学生评估的要求,便可在此基础上开展进一步的评估测试。
图2 试题命制过程中题目迭代与问题修订
在本研究中,采用第二次迭代后的试题,对北京市某区前期测试水平相近的两个平行班中的12名高二学生进行小规模的测试,分别采用前期设置的评估试题进行预评估,对于题目设置条件、学生题目选择错误的原因进行了细致分析,并同步采用学生访谈以及学生答案文本分析相互结合的方式,对学生的回答情况与人工智能给出的分析结果进行了对照,再一次对原有答案做出修订。在人工终审校对试题后,开展大规模测试,即对北京市某区高中1119名学生进行题目测试。结果显示,与传统的题目测试结果相比,此题得分率较往年同类型题目得分率相差0.03,即并未因是人工智能出题而对学生解题造成影响。试题整体考查了学生对于微生物培养相关基础知识的掌握情况,材料获取与信息加工能力,以及综合运用所学知识和题目所给信息解决实际问题的能力,发现学生科学思维中演绎与推理能力仍有所欠缺。综合研究结果发现,人工智能辅助生成的题目更加具有针对性,拓展了题目覆盖的范围,帮助学生从多个维度进行思考,具有一定创新性。
在试题设计的迭代过程中,人工智能辅助的试题设计逻辑与命题依据应具备一定的可追溯性,使教师与学生能够理解并验证评价结果的合理性。这里可以以出题者筛选的数据作为支持,通过限制词和检索词的提示,引导人工智能不要过度发散,以免偏离学科原有的研究基础和事实依据。通过增加人工智能系统的透明度,教师可以更好理解和信任人工智能所生成的试题,从而提高对试题的接受度和满意度,也有助于教师发现人工智能在试题生成过程中可能存在的问题,并及时进行调整和优化。当人工智能生成的试题或评分结果引发争议时,也能够找出依据,给出明确的解释,最终通过人工协同的方式,对人工智能提供的多元解释进行鉴定,实现对题目科学性和有效性的保障。
三、讨论与建议
(一)明确生成式人工智能在学科教学评价中的角色和地位
评价作为教育体系的重要组成部分,其目的具有多层次性和动态性,涉及个体发展、教学优化等多个维度。其中,在考试评价中引入人工智能技术能够有效优化试题命制过程,使其更具个性化和系统化,将考试评价从传统意义上的单纯测评工具,转变为能够促进教与学深度变革的调节器。通过试题命制的不断迭代,动态调整评价的引导功能,促使评价内容和方式发生改变。通过生成式人工智能辅助开展试题质量评价,也将成为未来考试评价工作的一项发展趋势,例如借助人工智能技术对试题难度、区分度、试卷信效度等指标分析,对相应测评工具进行修订,都会变得更加便捷、高效。
由此可见,在学科教学评价中,既不可以盲目推崇生成式人工智能,又不可以将其“拒之门外”。虽然在评价测试方面仍然依赖于专家思维,但是在实际的教学过程之中,生成式人工智能在查找学科文献、理论知识梳理等方面具有一定的优势,在一定程度上能够提升学科试题评价教育教学的个性化和适应性。特别是在寻找情境问题时,生成式人工智能能够更好地发挥优势作用,使原有情境更加丰富,更加符合学生潜在的学情。但由于生成式人工智能更多借鉴的是原有试题的情境和出题模式,往往也容易陷入固定化,很难同时兼顾科学性和创新性,特别是当学生在不断熟悉出题场景后,很难真正评估学生的正确作答是基于对原有问题的识别还是真正发展了相关素养。因此,可以在试题设计中可以进一步发挥专家思维的优势,引导人工智能体工具设计多样化的题型和创新的思维方式,以激发学生的学习兴趣并开展有效的评估。
(二)提升一线教师的专家型思维与人机交互能力
生成式人工智能的引入在一定程度上降低了教师开发和研制学生个性化试题的难度,但是为了更好地帮助一线教师利用人工智能技术,一方面需要引导教师像专家型学者一样思考问题,了解一些未知领域中基本问题的解决路径,辅助教师解决复杂问题。通过对教师实施生成式人工智能赋能教学评价的理论培训,使其了解相应的技术原理,以及技术赋能教学评价和试题命制背后的专家逻辑。这不仅要求教师对不同人工智能辅助平台具有一定的掌控能力,还需要教师具备深厚的学科专业知识,以便更好指导人工智能辅助其开展试题评价。另一方面,学校和教育主管部门也可以定期组织相关专题类的实践培训,将培训的场景从专家讲座变为课堂中的实践应用,提高教师调用人工智能工具和平台的能力,以及高水平的人机交互能力,从而学会提出精准化和明确的任务要求。可以采用分享成功案例,或者通过在线课程、工作坊等形式,帮助教师提升相关试题的设计能力。同时,让一线教师的试题命制真正在教学实践中得以应用,并鼓励教师之间的交流与合作,这也是至关重要的推进环节。基于教师之间的互助模式与团队协作,不仅可以共同解决教师群体在试题命制过程中遇到的问题,还能够影响那些对人工智能接受较慢的教师,让他们参与到这一过程中,从而整体提高试题命制的质量和效率。
(三)持续关注试题评价反馈
试题本身是一种评价工具。通过精准化、个性化的试题命制,能够在一定程度上帮助教师发现教学评价过程中存在的问题,以便更有针对性地改善自身的教学行为。相比于采用他人提供的测评工具,教师基于自身所在班级“量身定制”的试题,将更加匹配班级学生的实际情况,人工智能也能够针对学生提交的答案,进一步开展相关设计。此外,教师作为试题的设计者、实施者和分析者,学会使用人工智能平台设计试题只是开展和实施评价的第一个环节,后续还需要教师持续分析学生思维的形成过程,更好地理解学生的学习难点,调整教学实施、评价等教学环节。因此,建立反馈机制、充分地利用试题资源,能够让试题命制随着学情的变化与问题情境的变化,及时对试题命制和教学策略进行动态化调整。
(四)关注生成式人工智能使用过程中的伦理与隐私问题
教师或学生在使用生成式人工智能时,不仅要关注其实施的效果,还需关注使用过程中隐私数据的伦理和保护问题。一方面,试题的命制如果被用于高水平的选拔,则需要具有高安全性,避免因为试题的泄露而带来不公平现象和其他负面影响;另一方面,在利用生成式人工智能进行试题命制的过程中,学生的个人信息、作答数据等存在被收集和分析的潜在风险。如果这些数据被不当使用或泄露,也可能会对学生的个人隐私造成威胁。因此,应借助人工智能的辅助设计和修订功能,明确数据收集和使用的目的与范围,确保数据的收集和使用符合相关法律法规的要求;同时还应采取必要的技术措施,例如数据加密、访问控制等,确保数据的安全存储和传输。
近期评论