学科交叉融合论坛:“基于大语言模型的作文评价——数智化语文教育创新研究跨学科论坛”成功举办

发布时间:2025-10-29浏览次数:10

10月25日下午,基于大语言模型的作文评价——数智化语文教育创新研究跨学科论坛在华东师范大学中北校区办公楼小礼堂成功举办。

本次论坛以大语言模型在语文作文评价中的应用为核心,汇聚教育领域专家、高校学者及一线教师,共同探讨数智化背景下语文教育创新发展的路径与方向。论坛由华东师范大学中文系王意如教授主持。

领导致辞开篇,凝聚跨学科共识

下午13:00,论坛正式拉开帷幕。华东师范大学中文系党委书记徐默凡教授首先致辞,他从技术与人的关系切入,指出大语言模型作为近年快速发展的新技术,正处于“认知分歧期”:不同年龄、不同认知背景的工作者,对其在作文评价中的价值判断存在明显差异。大语言模型为作文评价带来了新机遇,但也面临着诸多挑战。希望通过本次跨学科论坛,促进语文教育理念与AI技术的深度融合,推动数智化语文教育研究迈上新台阶。

研究报告干货满满,解锁数智化教育新成果

在创新团队研究报告环节,华东师范大学数智化语文教育团队及一线教研团队依次分享了最新研究成果,内容涵盖理论研究、现状调查、技术架构及教学实践等多个维度,引发全场关注。

数智化语文教育团队负责人、华东师范大学中文系叶丽新教授系统介绍了数智化语文教育团队的成立契机、研究方向、核心任务及阶段性成果。2024年,依托华东师大跨学科创新团队申报契机,多院系学者组建团队,聚焦“AI赋能作文评分”核心目标,分语文教育、数据标注、技术研发三个小团队协同研究。目前,团队已完成多个大语言模型作文评价质量实证分析,开展教师AI工具使用现状调研;开展作文评分标准研究;完成两轮实验,还将内部系统升级为了小规模试用平台。最后,叶教授还分享了立足教材的写作评价标准设计思路。

华东师范大学中文系博士生丁圣俊、常毓涵带来的“师生人工智能工具使用现状:写作与写作评价角度”报告,以详实的数据揭示了AI工具在语文教学中的应用现状。常毓涵从教师视角出发,分享了对安徽、江苏、上海三地790名语文教师的调研结果,提出当前AI作文评价技术虽讨论热度高,但实际应用呈现“外热内冷”态势、“浅尝辄止”的现象,且不同群体的使用差异显著,为后续技术推广与应用提供了重要参考。

丁圣俊从学生视角展开讨论,分享了学生层面AI工具使用现状。学生使用AI工具的场景高度集中于“完成写作任务”与“应对考试需求”两类;同时自我报告写作水平较低的学生使用AI率较高,直接使用AI生成的情况也较为严重。报告最后提出了基于多主体的建议与展望。

随后,徐默凡教授围绕“整体评价与分项评价的关系”展开探讨,深入分析了作文评价中整体维度与分项维度的协同与互补。徐教授结合原型理论阐释,人类判断事物常依原型效应分类,语文专家评价作文亦如此,会先对好、差作文进行原型化归类。他建议,人工评价需重视不同等次样卷的原型作用,先凭整体感受评判,再通过分项调整,兼顾公平与严谨,同时关注特殊指标的教学指导价值;智能评价则需为大模型设计更具体明确的提示词,重视人类专家的内省过程,借助技术打造专用评价模型。

中文系柏晓鹏副教授聚焦“大语言模型生成的评语质量评估方法”展开分享,指出当前大模型在作文评价领域仍存在三大核心问题:一是智能化水平不足,难以精准匹配教学评价需求;二是语言表达与理解存在偏差,评语易出现“泛化空泛”或“理解错位”情况;三是评估标准不统一,导致不同场景下的评语质量缺乏可比依据。而既有研究,尚未出现针对大模型生成评语的自动评价方案。基于此,团队通过构建高质量评语标注数据集,为大模型生成的作文评语提供客观、可量化的评价依据,填补该领域研究空白,推动大模型作文评语质量向标准化、精准化方向发展。

华东师范大学教育信息技术学系冷静副教授与硕士研究生钱俊,围绕“面向大规模写作测评的多智能体架构”展开研究报告。冷静副教授首先指出,当前大规模写作测评面临的关键数据瓶颈:作文文本解读数据极度匮乏,评分场景相关数据严重缺失,尤其缺乏足量的学生真实作答案例、专家评分数据作为核心数据库支撑,这直接制约了智能评分技术的发展。随后,她分析了现有AES系统的现状及局限,明确其存在三大核心问题:一是趋中效应,难以区分学生真实水平差异;二是严厉度效应,评分标准易受系统“主观”严厉程度影响,稳定性不足;三是不确定效应,面对复杂写作内容时,评分结果易出现波动,准确性难以保障。

基于上述问题,钱俊硕士代表团队重点探讨了多智能体架构的应用价值。针对多智能体架构能否有效缓解单智能体作文评分中常见的维度塌缩问题展开汇报,指出多智能体架构对语言敏感度更高,评分响应更“激进”。目前,团队已启动“多智能体架构与专业教师评分一致性”的相关研究,旨在验证该架构在大规模写作测评中的可靠性与实用性。

华东师范大学中文系博士生瞿锦雯以“语文作文人机评分差异:关键维度、核心成因及优化启示”为题展开报告。通过研究,她发现人机评分差异的根本原因主要集中于三方面:一是人机认知逻辑存在本质分野,二是评价人文性与考试客观性存在冲突;三是教师评分兼具经验性与育人导向,这是机器评分暂未具备的特质。基于此,她提出多方面优化启示:在评价标准上,可将原有A-C等评分层级细分,同时细化可标准化维度的指标,将“立意”“文采”等主观维度的表述显化,降低机器理解偏差;在流程实施层面,建议让机器学习模仿人工维度评分流程,并根据不同评价维度的特点,合理分配人机职责,提升评分的精准度与契合度。

一线教师团队的分享同样亮眼。上海市杨浦区金莉老师团队的王振宁老师分享了其借助AI工具优化阅读作业讲评课的实践探索。王老师指出,高中语文作业讲评课长期受三大痛点困扰:难以实现阅读题“小题精炼”,教师批改耗时费力;无法精准分析学生问题,分层教学难以落地;随堂批改与及时反馈缺失,教学效率受限。针对这些问题,王老师引入白老师团队的作文自动评价系统,构建“课前-课中-课后”全流程AI赋能模式:课前,学生上传练习,系统自动批改、按知识盲点分组;课中,学生以组为单位用大语言模型探究问题,修改后二次提交获即时反馈,系统同步推送适配习题;课后,通过共享文档沉淀学习资源,系统推送个性化练习,形成学习闭环。此次实践中,课堂7次应用AI工具,4次调用定制系统。王老师同时提出反思:需明确教师在AI时代的核心价值,推动AI与语文特质深度融合,警惕“AI依赖”导致的思维弱化;并期待开发者深入一线,打造更适配教学需求的AI工具,让技术真正服务于课堂提质与学生成长。

普陀区周静老师团队的顾栗豪老师,在论坛中分享了团队使用AI作文自动评分系统的实践经验。顾老师介绍,目前系统主要应用于日常教学与考试测评两大场景。在考试测评实践中,团队采用“AI初评+人工精批”模式:先向AI提供评分标准,根据其初评结果挑选不同分数段作文人工精批,调整分数与评语后,让AI二次批改,准确率显著提升。他建议提前向AI提供样卷,助力其快速适配评分标准,减少磨合成本。关于未来发展,顾老师提出:日常教学中,系统可作为学生个性化写作教练,记录作文修改轨迹,形成成长资源库;对教师而言,系统能生成详尽分析报告,让讲评课从“凭感觉”转向“有依据”。同时,可拓展系统至阅读批改及片段化写作训练,提升评价精准度。考试测评中,系统可作为“保险栓”辅助二评,高利害考试中还能动态调整评分细则,减少人工批改量并收紧仲裁标准,兼顾评分严谨性与效率。

专家评议把脉方向,共绘发展蓝图

在专家评议环节,上海市教育考试院顾云波老师、南京市建邺区教师发展中心教研员韦叶标老师、上海市教师教育学院教研员薛峰老师、曹刚老师分别结合论坛汇报内容,从技术发展、实践可行性、教育本质等角度展开点评,对本次论坛的研究成果进行专业点评。

上海市教育考试院顾云波首先肯定了AI在教育领域的核心优势。针对AI的应用场景,他提出三大核心方向:其一,在日常教学中,AI可作为数据监测与跟踪工具;其二,在大规模考试中,AI可发挥关键辅助作用,提升评阅严谨性;其三,AI可参与评价体系的动态优化,助力应对评分标准受场外因素影响的难题,未来或可通过资源聚合,丰富评价维度,缓解人类评阅中的难题。顾老师指出,团队的研究具有前瞻性,正推动教育评价理念从“终结性考试”向“表现性评价”转变,甚至可能重构教育评价流程。同时,他也提及当前AI面临的挑战,如易生成具有特定倾向的模板化内容、评分标准易受外部因素影响等。最后,他期待未来能开发更优质的AI模型,破解现有难题,形成行业规范,引领AI在教育评价领域,尤其是大规模考试场景实现突破性应用。

南京市建邺区教师发展中心教研员韦叶标老师聚焦“可行性”展开解读。他坦言,当下AI发展的硬件条件与理念尚未完全成熟,团队“明知难为而为之”的探索精神令人敬佩。通过下午的汇报,他肯定了AI在教育评价中的“可为性”,同时也提出实际问题:如作文需逐篇上传、学生设备配备情况、OCR识别不全等。他建议,需针对不同学段、不同类型考试设置差异化评价标准,同时关注个性化需求与评价精准度,从使用前、中、后全流程完善实操细节。

上海市教师教育学院教研员薛峰老师认可团队对“教学全过程”的关注,认为阶段性批改等实践具有重要价值。他表示,尽管目前AI评价精度仍有不足,但技术进步与一线教师、工程师的磨合,将不断缩小差距。他强调,AI批改需以“赋能课堂”为核心,通过观察学生、提炼问题、诊断需求发挥作用,同时必须聚焦“学生提升”这一根本,明确工具介入的时机、方式与内容,避免忽视教育本质。

上海市教师教育学院教研员曹刚老师则从“专家评价逻辑”切入,提出“默会知识”的重要性——优秀评阅者如同围棋高手,不仅依赖经验,更掌握底层逻辑。他指出,普通评阅者与优秀评阅者的核心差异在于对评价底层逻辑的理解,因此专家遴选是AI模型训练的关键。他建议,相关研究需先明确“优秀评价”的框架与底层逻辑,从源头梳理问题,逐步推进AI教育评价的优化。

各位专家的评议既肯定了现有研究成果,也从实践落地、技术优化、教育本质等维度提出建议,为AI在语文教育评价领域的发展指明了方向。

本次跨学科论坛的举办,搭建了高校研究与一线教学、语文教育与信息技术的交流平台,为大语言模型在作文评价中的应用及数智化语文教育的创新发展提供了新思路、新方向。未来,随着相关研究的深入与实践的推进,数智化将为语文教育注入更多活力,助力语文教育高质量发展。