考试评价正在经历从知识到能力的转向
1995年,时任外交学院访问学者的阿米特·塞瓦克第一次来到中国。骑着飞鸽牌自行车,他随着北京街头浩荡的自行车流,打量着这座古老又快速变化的城市。
(资料图片)
“那是一个非常令人兴奋、充满活力的时期,人们对像我这样的外国人充满了新鲜感和好奇。”阿米特回忆道。在他到来前不久的1981年,ETS(美国教育考试服务中心)旗下的托福考试,作为首个被引进中国内地的国际化标准语言测试,刚刚迎来第一批723名中国考生。
作为拥有托福、GRE等诸多测评产品的世界知名专业化教育考试评价机构,ETS在考试技术的运用和教育评价观念的引领方面一直处于领先水平。在全球教育经历转型的当下,ETS如何看待今天考试评估的新变化、新趋势?在人工智能技术崛起的背景下,教育评价会有何变化?
2023年春,阿米特·塞瓦克作为ETS新任首席执行官再次来到北京。中国教育报记者就这些问题采访了阿米特。
考试测评将更关注如何全面地评价人
中国教育报:我们了解到,这次您来中国的一个重要行程是,参加托福iBT考试改革发布活动。这一次托福改革的背景是什么?
阿米特·塞瓦克:今年4月中旬,我们在北京召开发布会,介绍了托福考试改革的相关情况。简单来说,从今年7月26日起,托福考试时长将由3小时缩短至2小时以内,并且我们将精简考试流程说明与操作导引、将现有独立写作试题替换为更为简练的全新写作题型“学术讨论写作”、缩短阅读部分时长,并取消所有不计分的加试题。
首先,我们想让考试对考生来说尽可能地舒适、方便,我们想让他们能以一种压力更小的方式进行评估,并让他们对参加测试有信心。正如我上大学时一位教授所说的那样,考试不应该是一件烦人的事,它应该是对你学到的知识和能力的鼓励。其次,我们希望测试体验更加对用户友好。当然,我们在缩短时间的情况下,依然保持了考试的高质量和严谨。总而言之,我们希望托福考试更加方便,更加友好,同时,也依然拥有和此前一样的高标准。
中国教育报:不仅是托福,从全球来看,考试评估都在经历着改革重塑。您认为将有哪些变化趋势?
阿米特·塞瓦克:过去,世界上的大多数考试关注的都是知识的积累程度和掌握水平。但现在,企业招聘主管与大学招生官更关注“你是否掌握了能力”,而非“你是否掌握了知识”。我们把这称为对“ABC能力”的重视。A是情感能力,B是行为能力,C是认知能力。
以前,大部分考试集中于逻辑推理等认知能力,这也是标准化考试中着重考查的内容。情感能力则涉及你的行为表现,比如你的情商。行为能力则是你如何应用知识的具体行为。举个例子,英文语法被归类于认知层面,理解情绪与语义则被归类于情感层面,与他人使用英语交流则是一种行为能力。随着世界的发展,我们认为对ABC能力的关注将日益加深,对如何以更全面的方式来衡量和评价一个人的关注也会更多。
今天,我们已经看到,越来越多的企业希望求职者具备良好的沟通能力、协作能力、团队合作能力和高情商等非知识性能力,而这些能力在传统的教育体系中得到的重视和培养还不够。
中国教育报:这一变化趋势意味着什么?
阿米特·塞瓦克:总的来看,为了评估考生的这些非知识性能力,会有越来越多的考试产品出现。以ETS为例,未来,除了托福考试外,我们也会对旗下的其他测评产品进行升级。比如,长期以来,GRE(美国研究生入学考试)更偏向于是一种认知测试,主要被用来测试考生解决问题和逻辑推理的能力。但我们也发现,越来越多的大学希望GRE考试对考生的沟通能力、团队协作能力等也进行评估。因为大学也日渐发现,在研究生阶段,团队协作能力对于学术研究也是十分重要的。
我认为,未来的大学入学考试和结业考试,不仅有大型的标准化考试,还会嵌入越来越多的能力测评。例如,当考生参加一项考试后,不仅会得到一个分数,还会获得相应证书和不同能力的评价。我们可以把能力测评和相应结果纳入到成绩报告中,这是值得一做的尝试。
技术全面影响和改变着教育评价
中国教育报:正如您所说,能力型、素养型评价越来越被重视,但对能力和素养如何有效评估依然是难点。
阿米特·塞瓦克:我认为技术的发展将解决这个问题。目前我们已经有了越来越多的工具可以用于能力的测评,而这些工具和技术在十年前甚至是五年前都还没有出现。在我看来,借助这些技术,我们对于能力、素养的测评会更容易实现。未来,我们会有越来越多的工具支撑我们开展更好的测评。
应该看到,今天,技术的发展已经给我们带来了更多样的检测工具,比如,一些可穿戴设备能够实时地监测用户的心率和步数。我们认为,未来测评产品也会是这样的发展方向。在技术的支持下,越来越多的人能积极、定期地评估自己能力的发展,而不是只能通过周期更长的标准化考试。
随着数字化存储技术的发展,已经有一些公司在做这方面的尝试。借助数字化工具,我们对能力的测评间隔将更短,会生成更多形成性、过程性的评价。当今的世界正在朝着科技含量更高、速度更快的方向发展,这表明了社会的进步,也将使人们对自己已经掌握的能力和想要培养的能力拥有更多的掌控权和更清晰的认知。
中国教育报:技术给考试测评带来了新的想象。但是,以ChatGPT为代表的人工智能技术也对传统考试评估带来了挑战。您怎么看待这种影响?
阿米特·塞瓦克:包括教育在内的许多行业正在受到以ChatGPT为代表的AI技术影响。在考试测评领域,AI已经深刻影响着我们。
一般而言,我们可以把考试测评分为设计、实施、评分和分析四个阶段。今天,AI正改变和影响着考试测评的每一阶段。比如,在考试设计阶段,AI可以通过生成式内容技术帮助研究人员更好地开发不同类型的试题;在考试实施阶段,AI可以帮助考试变得更加多样和更具个性化;在评分阶段,我们已经可以用AI技术工具进行自动评分;在分析环节,凭借大量数据,人们可以通过AI来寻找和发现数据背后的规律和模式。另外,AI技术还被很多大学和企业用于面试环节,比如把面试人的表现记录下来,通过AI对其表情、说话和沟通的方式进行分析。
现在一个有趣的现象是,在大学招生中,很多面试官都在思考如何更好地向学生提出问题。以短文写作为例,由于ChatGPT已经完全可以胜任短文写作,因此,当面试官提问时,就得重新考虑,如何以一种机器无法替代的方式考查学生。因此,我认为AI不仅会影响到测评本身,还将影响到教育的整个过程。
考试评估正在进行更多样化的探索
中国教育报:随着技术的不断发展,传统的标准化考试会消亡吗?
阿米特·塞瓦克:其实历史上人们不止一次提出过这个问题,不少人也曾认为,标准化考试会逐渐消亡。但时至今日,我们也看到,标准化考试并没消失,反而一直在发展延续。
今天,当我们再一次思考这个问题时,更应该需要考虑的问题是,除了标准化考试之外,我们还有其他哪些测评方式的选项,并确保其在不同的国家、州或省份享有同样的有效性和公平性。我认为这是一个值得思考的问题。如果我们取消标准化测试,在面对两个背景截然不同的申请者时,院校应如何有效、公平地评估并比较他们呢?围绕这一问题所展开的讨论,是今天教育界所关注的。
与此同时,我们也要看到不同国家、社会的情况不同,对考试评价的需求也不同。今天,世界上一些国家和地区仍然是需要标准化测试的。但在另外一些国家和地区,人们正在思考和探索标准化测试之外的其他选项。正如我们关注到的一样,一些国家和地区的教育评价中需要更多的标准化元素,但在另一些地方则可能希望更少的标准化色彩。
对我们来说,ETS作为全球最大的教育测评机构之一,我们既可以提供标准化测试,也可以提供个性化测试,还可以进行定制化测试。我们对不同的测评类型持开放的态度,并能灵活应对。
中国教育报:近年来,美国很多高校采取“标化考试可选”,有些大学甚至不再要求提交SAT、GRE等标准化成绩。这是一种多样化的探索吗?
阿米特·塞瓦克:最近几年,美国这一政策的发展势头越来越强劲。一方面,美国许多大学正感受到不小的财政压力,他们需要增加入学人数,以保持经济上的可持续性。对于许多大学来说,标化考试可选政策允许更多的申请人提交申请。此外,许多大学也日益看重多样性,该政策可以帮助大学建立一个更为广泛、多样化的候选人储备库。大学正在把这一政策作为向社会开放和增加进入大学机会的方式。
中国教育报:在中国,高校也有强基计划等多样化的招生选拔方式。面对更加多元的考试招生方式,您怎么看?
阿米特·塞瓦克:我认为关键问题是招生考试的目的是什么。在我看来,招生考试的目的之一就是帮助申请人和学校能有一个共同的框架。对于大学而言,他们最大的希望是确保评价客观、公正并且合理。因此,当大学决定改变或者摒弃某种测试时,都面临着一个核心的问题——用什么标准来替代原有的测试。
几十年来,标准化测试重要的功能是提供了这样一个衡量标准。例如当大学同时面临来自中国成都、法国巴黎和美国得克萨斯的学生时,怎么评价和比较呢?传统的标准化测试就提供了一种标准。当然,这并不是唯一的,但这的确是一个有效的方法。因此今天,当我们思考把标准化考试替换成其他考试时,我们面临着的新的挑战是,如何再造一个评估候选人的新范式。
《中国教育报》2023年07月03日第4版