教育资讯 首页  》  江南游戏中国有限公司  》  教育资讯

关注 | 试析教育评价数字化转型的原则、场域与方向

2022-06-17 | 5552|

教育评价数字化转型既是信息化时代教育事业发展的重要内容,也是疫情常态化背景下教学实践倒逼评价改革的迫切要求。具体教育评价数字化转型内容快跟着信息技术考试系统的小编来看看吧~

教育评价数字化转型应遵循真实性、通用性、自动性、形成性及安全性原则,从效度、公平、效率、个性、道德5个层面规约改革实践行为。网上评阅系统、自适应评判系统、数字评估与反馈系统等相对成熟的评价技术,在优化教育评价程序、革新评价方法、整合评价资源等方面取得明显成效。教育评价数字化将向主体多元化、工具智能化、方式多样化与功能实效化方向发展。


随着人工智能、大数据等现代信息技术的发展,教育进入以信息智能文明为特征的4.0时代。2022年2月,教育部部长怀进鹏在部党组理论学习中心组集体学习会议上指出,习近平总书记高度重视信息化建设和数字经济、数字中国建设发展,多次强调数字化、网络化、智能化在中国特色社会主义现代化建设中的重要意义,教育系统要深入学习领会,认真贯彻落实,把教育信息化作为发展的战略制高点,以教育信息化推动教育高质量发展,以教育信息化引领教育现代化[1]。《教育部2022年工作要点》中明确提出实施教育数字化战略行动。《深化新时代教育评价改革总体方案》强调,要充分利用信息技术,提高教育评价的科学性、专业性、客观性[2]。所有这些要求都呼唤教育评价向数字化转型,而疫情常态化更是加速了在线考试、数字化评价的发展。教育评价数字化转型既是信息化时代教育事业发展的重要内容,也是疫情常态化背景下教学实践倒逼教育评价改革的迫切要求。本文围绕教育评价数字化转型的基本原则、应用场域与发展方向3个问题,结合国内外教育评价数字化建设的成果与探索,尝试从价值、技术与实践3个层面勾画我国教育评价数字化转型的发展图景。

01
教育评价数字化转型的基本原则

教育评价数字化转型的基本原则是由教育评价的本质属性所决定的,是教育评价数字化转型需要明确的首要问题。参考英国联合信息系统委员会(Joint Information Systems Committee,JISC)2020年发布的《评价的未来:2025年的5项原则与目标》(The Future of Assessment: Five Prin ciples, Five Targets for 2025)[3],数字化时代的教育评价应遵循真实性、通用性、自动性、形成性与安全性原则[3],从效度、公平、效率、个性、道德5个层面规约改革实践行为。


1.1 真实性原则是教育评价数字化转型的效度保证

真实性指反映事物真实情况的程度,是教育评价数字化转型的效度保证。真实性原则意味着让学习者在评价过程中展现出最自然的状态,使教育评价能够测试出学习者的真实水平。

信息技术有助于提高教育评价的真实性。以人机互动为特征的在线考试,为学习者创造的网上私密空间,能够在一定程度上消解学习者的紧张情绪。特别是在面试环节,以计算机为中介进行的互动过程极大减轻了一部分面试者的心理负担,有利于学习者展现出最真实的水平与状态。利用信息技术实现的即时评价,也突破了传统教育评价的时空限制,实时监控与行为识别功能可以对学习者的学习过程进行及时反馈与纠正。然而,信息技术无形中也带来了影响评价真实性的一些风险因素,其中以考试作弊最为典型。疫情常态化背景下在线考试作弊事件频发,如:2020年12月初美国德州农工大学800多名考生购买齐格(Chegg)公司服务,在课程考试中作弊;疫情期间英国大学生作弊率升高200%,并且出现了代考产业链,每次费用约250~300英镑[4]。


1.2 通用性原则是教育评价数字化转型的公平应允

通用性指事物适用对象与范围的普及程度,是教育评价数字化转型的重要追求。通用性原则要求数字化教育评价工具最大程度上为所有学习者无差别使用,这是出于保证教育公平的考量。

常用的数字技术通用性功能包括字体大小、颜色的更改、语音到文本和文本到语音的转换,以支持有视力或阅读障碍的学习者。一些发达国家已经意识到教育评价工具通用性的重要价值,如:英国明确了公共部门网站与移动应用程序的通用标准,并在法律层面作出相应规定;挪威在《国家指南》(Norway National Guidance)中建议大学在数字评价上采用屏幕阅读器或放大镜技术、可刷新的盲文显示器和眼控技术、全功能的语音控制选项、支持语音合成的阅读和写作、支持所有官方语言的音频输出等,以便在最大范围内让每个人都可以便捷使用[3]。但是,总体来看,教育评价领域对工具通用性的关注仍然不够,通用性原则并不总是作为检测教育评价工具可否交付使用的前提标准。因而,通用性原则要求教育评价技术工具在设计阶段就应考虑残疾人、弱势群体等特殊背景学习者的特别需求,以保证所有学习者的无差别体验,避免数字评价可能带来新一轮教育不公平风险。


1.3 自动性原则是教育评价数字化转型的效率要求

自动性指评价工具按照特定规则与程序运行的自动化程度,是技术革新促进教育评价智能化的直接体现。自动性原则意味着信息技术将教师从简单重复的活动中解放出来,通过技术工具实现对学习者的自动评价。

传统教育评价以人工评阅为主,为教师增添了不少负担。通过技术优化实现的自动化评价可以改善学习者的学习体验,并为教师节省出时间去做更有价值的工作。2019年,英国在教育科技战略议程中将利用信息技术减少教师准备和批改作业的时间列为要解决的重要问题之一[5]。目前,选择类客观题型的自动评阅技术臻于成熟,还需要进一步将自动评阅功能扩展到涉及自然语言处理和分类的主观题型,为学习者提供精确及时的学习反馈。英国博尔顿大学在教学中试用亚马逊、谷歌和微软等公司提供的自然语言处理和分类技术,教师和学生都给予积极回应。学生喜欢在回答开放式问题时收到及时反馈,教师表示自动化评价工具极大减轻了评分工作量[3]。值得注意的是,业界仍然担忧数字教育评价自动化发展可能会减少学习者与教师的互动,以及信息技术能够在多大程度完全取代人工评判。因此,自动性原则要求在利用信息技术提升评价效率的同时,也要循序渐进,把握好自动化评价的尺度。


1.4 形成性原则是教育评价数字化转型的个性需求

形成性指成为某种事物或生成某种特性的发展变化过程。形成性原则是信息化时代为学习者提供持续性、定制化教育评价的要求,也是适应学习者终身学习的需要。

信息技术使形成性评价更为便利,极大推动了循证教育评价的进程。教育评价数字化转型的形成性原则要求教育评价根植于学习者的学习过程,将教育评价作为观察、反思、改善学习者学习行为的依据凭证。例如,荷兰的量化学生(Quantified Student)项目,通过开发一系列应用程序实现对学习者的实时学情分析,让学习者更好了解他们自己的学习行为,并将其与同龄人进行比较,帮助学习者管理学习过程[3]。在形成性原则指导下,以往对学习者进行的统一定期评价可能会被基于学习者需要的非定期教育评价所取代,使数字化教育评价真正满足学习者的个性化需求,促进学习者的形成性发展。


1.5 安全性原则是教育评价数字化转型的道德检视

安全性是规范教育评价相关行为的底线要求。安全性原则从道德层面检视教育评价数字化转型,主要包括防止考生作弊的考试过程安全与防止教育评价数据误用的信息资源安全。

防止在线考试作弊的常用方法包括对考生面部或指纹等生物特征的数据识别,以及对考生异常反应模式的数据取证。异常反应模式取证将考试活动视为一个整体时间序列,假设大多数考生会在相对均匀的时间内思考与作答,作弊则表现出不同的行为模式,如会出现一段时间不活动,随之又有大量答案材料输入的现象,以此识别出考试中的异常情况。还有研究者认为,击键动力学(keystroke dynamics)是高度个性化的“指纹”,可以辨别考生身份与答题风格[6]。防止数据误用的信息资源安全也是教育评价数字化转型需要关注的一个重要问题。教育评价数据作为学习者的私人信息,也是改善教育方式与教学方法的重要数据资源。明确教育评价数据使用、传播的相关规定,既是保护学习者个人隐私安全的必然要求,也是数字化教育评价有序发展的重要保障。


02
教育评价数字化转型的应用场域

信息技术是教育评价数字化转型的重要载体与媒介,在一定程度上决定了教育评价数字化转型的应用场域与范围。国内外相对成熟的数字化教育评价技术包括网上评阅系统、自适应评判系统、数字评估与反馈系统等。这些技术及场景已应用到各类教育评价实践活动中,在优化评价程序、革新评价方法、整合评价资源等方面取得了明显成效。


2.1 网上评阅系统优化教育评价程序

传统人工阅卷存在评卷速度慢、效率低,录分统计与数据分析困难,阅卷质量与公平性难以保证等问题。2005年,教育部下发通知,要求各地推广网上阅卷系统,最大限度地减少评分误差,提高工作效率,保证阅卷工作的稳定性和可靠性[7]。2007年,教育部颁布《国家教育统一考试网上评卷工作管理办法》,对答题卡的设计、印刷、运送和保管、评卷工作的组织管理、数据的安全和管理、网上评卷的环境和设备及技术维护等涉及网上评卷工作的重要事项提出了要求[8]。

作为教育评价数字化转型最为基础的技术工具之一,网上评阅系统经过10多年的发展取得长足进步。以我国科大讯飞网上评阅系统为例,讯飞启明智能阅卷系统主要由数据扫描系统、自动评分系统、网上评卷系统与数据监控系统构成,以计算机网络技术与图像处理技术,以及自然语言理解、智能测评等人工智能技术为依托,对各类考试答卷和文档进行扫描和处理,实现了客观题机器自动判定和主观题智能评分[9]。目前,讯飞启明智能阅卷系统已在多个省份的高考、中考、自学考试及社会证书考试中得到应用。

网上评阅系统通过人工智能技术优化教育评价程序,在提升效率的同时保证教育评价的质量与公平。第一,网上阅卷系统通过客观题自动批阅与主观题辅助评阅,能够加快评分过程,降低教育评价组织成本,减少阅卷人员的简单重复劳动,极大减轻阅卷人员的工作量,从而明显提升教育评价效率。第二,以往在主观题型的评分过程中,阅卷人员会不可避免地受到诸如考生书面印象、评分进度等非客观因素影响,网上评阅系统智能化的评分过程则不受人为干扰,能够保证教育评价的公平公正。第三,网上评阅系统对于考试分数与等级的自动计算与统计,能够保证考试计分的准确性。第四,基于卷面信息提供多维度、精细化的数据分析,有助于提升教育评价质量,持续改进评价结果。有研究表明,智能机器阅卷与人工阅卷在评分结果的准确性上相差无几,但在效率、质量和公平上,前者更胜一筹。例如,有研究者选取2017年安徽省841610份高考语文作文和英语作文试卷,对智能阅卷与人工网上评卷进行多维度的数据比较,发现智能阅卷基本达到与评卷教师相当的水平;而智能阅卷始终严格按照统一的评分标准,更具客观公正性,还能为人工网上评卷提供有效的质量监控[10]。


2.2 自适应评判系统革新教育评价方法

传统评价方法通常参照一定的标准,更多时候是依据标准来进行评价的。不少学者对这种参考固定标准的绝对化评价提出质疑,开始寻觅一条比较判断的评价之路。通过借鉴美国芝加哥大学心理学教授 Thurstone提出的比较判断定律,Pollitt将比较判断法引入教育评价,最终形成基于网络的自适应评判系统[11]。

自适应评判系统的核心技术是适应性比较判断(adaptive comparative judgement),主要依据自适应算法,在不参考标准的情况下,根据特定算法向考官展示考生的成对作品,要求他们判断哪一个更好,以此往复形成对考试作品更直观的相对评价与整体判断。适应性比较判断对于有明确标准答案的评价项目作用有限,但对写作、设计等复杂主题和开放创意性题目非常适用。2009年底,Pollitt组织54名专家利用自适应评判系统评阅学生写作作业,每份作业在被比较16次后所得分数的可靠性系数达到0.96,远高于其他评价方法;进一步测验表明,每份作业进行约9次比较判断后,所得分数的可靠性系数能达到0.93[11]。

自适应评判系统的技术魅力在于使教育评价活动更加专业,并且重新调整了评价与学习之间的关系。教师与学生在自适应评判系统的引导下,将教育评价变为师生共同学习过程。学生通过将自己的作业与更好或更差的相比较,可以更直观地感受到什么是好、什么是差,以及为什么好和为什么差,对他们来说这是通过比较判断获得同辈经验的学习过程。例如,美国普渡大学(Purdue University)在技术设计思维课的550名一年级学生中,随机选择一半学生参加使用适应性比较判断的教育评价试验,结果显示:学生在与同辈和教师的合作中成功提高了课程成绩,评价过程变成一种学习过程[12]。教师在适应性比较判断的过程中,可以更细致地观察到不同学生在不同任务中的表现,有助于优化课程设计。教师还可以将自己的判断与其他学校教师的判断进行比较,也有助于教师的专业发展,正如英国一所小学在联合14所学校采用自适应比较判断法对学生写作进行评价后,该校校长指出:适应性比较判断有助于提高学习者的学业水平与教师的判断力,他们对高质量的写作有了更清晰的认识,促进了不同学校教师之间的专业对话[13]。


2.3 数字评估与反馈系统整合教育评价资源

传统评价过程大多是以评价者为中心的单向度反馈。学习者只收到零散评价信息,很少根据评价结果作出进一步行动。数字评估与反馈系统将评价结果整合成教育评价数据资源库,通过对评价数据的整理与分类,帮助学生制订符合其学习需求的行动计划,并就相应的学习资源提出建议,充分发挥学习者在教育评价过程中的能动作用。

英国萨里大学(University of Surrey)的Winstone博士团队开发的反馈参与和追 踪系统(Feedback Engagement and Tracking System)[14]是数字评估与反馈系统应用的知名案例。该系统获得了英国员工和教育发展协会(The Staff and Educational Development Association)颁发的2018年度教育发展倡议奖(Educational Development Initiative of the Year Award)。反馈参与和追踪系统包括查看反馈、浏览资源与制订行动计划3大板块。查看反馈部分汇集了学习者终结性评价、形成性评价、同伴评价与自我评价的所有数据信息,为学习者自动分析评价结果,明确显示其需要改进的地方,并根据评价结果为学习者提供发展技能评估,以帮助了解他们的发展优势与不足。浏览资源部分是为学习者技能发展提供的资源库。学习者选择想要学习的技能,资源库自动匹配技能发展需要的学术资源。在制订行动计划部分,学习者可以创建一个个行动计划,选择计划完成的阶段性目标与最终日期,系统就会根据学习者制定的行动计划显示相应的完成进度。反馈参与和追踪系统配备的成绩追踪器,还能对学习者的学习情况进行智能追踪与分析,根据学习者的发展优势与需求提供个性化的学习建议。针对临近毕业的高年级学生,反馈参与和追踪系统依据大量评价数据,为学生提供相应的职业建议与职业素养培养方案,以此提高毕业生的就业能力。Winstone博士指出,以前许多学生收到评价反馈后,评价过程随之终止;现在通过反馈参与和追踪系统,学生可以根据评价结果把控自己的学习过程,推动自己的学业发展[14]。总之,数字评估与反馈系统是整合学习者教育评价资源的平台,将评价与学习更紧密结合起来。学习者可以借助教育评价结果与相关学习资源,不断反思学习过程,改进学习方法,实现持续发展与进步。


03
教育评价数字化转型的发展方向

从国内外教育评价改革实践来看,数字化信息技术的应用为教育评价带来崭新面貌,推动教育评价向着主体多元化、工具智能化、方式多样化与功能实效化的方向发展,将逐步实现家校社企参与的协同评价、人机交互协作的精准评价、关注学习过程的智慧评价与彰显本体价值的发展评价。


3.1 从以教师评价为主走向家校社企参与的协同评价,评价主体日益多元

教育评价主体是回答谁来评价的问题,谁来评价关乎教育评价权的归属。以往以教师为代表的校方掌握教育评价权,学习者处于被评价的位置,家长、社会、企业等主体的参与感不强。信息技术的发展与应用使得评价主体多元化成为可能,家校社企参与的协同评价变成教育评价数字化转型的重要追求。

家校社企参与的协同评价意味着教育评价立场的转变,“教育评价是一种价值判断,表征教育活动之于主体需要的满足程度。”[15]不同利益主体对教育评价的需求侧重有所不同。长期以来,学生、家长、社会与企业在教育评价中未能充分发挥作用,以学校为单一主体的评价机制不利于协调各利益主体的需求与意见。特别是在职业教育评价中,作为职业教育的重要利益相关者,行业与企业对职业人才素质的要求在一定程度上决定着职业教育评价的内容与发展方向,将行业与企业纳入评价主体是改进职业教育质量的必要措施。


3.2 从以人工评价为主走向人机交互协作的精准评价,评价工具更加智能

教育评价工具是关于如何评价的问题。评价工具智能化是教育评价数字化转型的显著特征之一。从以人工评价为主到人机交互协作的精准评价,是信息技术发展推动教育评价变革的必然结果。

当前,智能化教育评价工具的发展还停留在相对简单的人机交互协作阶段,存在依靠机器的完全自动化评价、机器辅助的半自动化评价及机器检测教育评价质量等应用模式。其中,机器检测教育评价质量是通过对评价数据的统计分析,观测评价者在教育评价中的稳定性与准确度,以此判断评价者的评价水平。目前,国内外教育评价数字化实践更多使用的是机器辅助的半自动化评价模式,距离完全自动化评价尚有一定距离,但可以肯定的是,评价工具智能化的发展前景值得期许。在人工智能技术持续发展与不断革新的将来,以人工智能加持的教育信息技术可以在教育评价中完全代替人的判断,达到比人工评价更准确的评价效果,实现更深层次、更优体验的人机交互协作的精准评价。


3.3 从以结果评价为主走向关注学习过程的智慧评价,评价方式更为多样

教育评价方式是关于作何评价的问题。随着教育评价数字化转型,以结果评价为主的教育评价方式将转变为诊断性、形成性、总结性、增值性评价相结合,形成重点关注学习者学习过程的智慧评价。

智慧评价的关键在于将评价扎根于学习者的学习过程,通过对学习者思维动态与行为过程的实时监控,实现即时评价与反馈。JISC提出,人工智能不仅能够为学习者定制符合他们能力与需求的学习内容,还能够理解他们学习过程中的行为动机与心理变化,总结出学习者的固定思维方式与行动步骤[3]。另外,关注学习过程的智慧评价能够超越“抽象的人”,将教育评价落实到“具体的人”,即“将人视为一种独特的生命,强调完整的人、参与的人与个性化的人,突出评价的全面性、真实性及欣赏性,追求教育评价的平易近人,促使人的完整价值真正实现”[16]。总之,智慧评价将评价落实到每一个人与具体的学习过程,围绕学习者特点与需求,对学习动态进行实时监控,并辅以多种评价方法开展评价。


3.4 从以工具性评价为主走向彰显本体价值的发展评价,评价功能更加注重实效

教育评价功能是回答为何评价的问题。评价最重要的意图不是为了证明,而是为了改进[17]。教育评价的本体价值在于通过评价及时反馈存在的问题,促使评价对象不断完善与优化。教育评价数字化转型要求评价功能更加注重实效,从以工具性评价为主转向彰显本体价值的发展评价。

长期以来,利用教育评价结果对学生进行排名、分类的工具价值遮蔽了教育评价促进学生成长、改进教育教学、推动教育事业发展的本体价值。作为教育改革的指挥棒,教育评价的工具价值凸显与本体价值弱化无形中催生了重分数、重排名等不良风气,不利于立德树人教育目标的实现,也不利于学习者的终身学习与可持续发展。因而,以教育评价数字化转型为契机,助力教育评价彰显本体价值,具有重要意义。将教育评价真正融入学生学习成长过程和教师专业发展过程,真正发挥教育评价的实际效用,实现本体价值与工具价值的平衡,既是教育评价发展的内在诉求,也是充分发挥教育评价重要作用的关键之举。


原文刊载于《中国考试》2022年第6期第16—23页。

作者:黄晶晶,武汉职业技术学院副教授。刘宇佳,武汉大学教育科学研究院在读博士生(通信作者)。


参考文献