发布时间:2025-02-12 08:32:36被阅览数:52 次信息来源:《山西档案》
作者:傅筠
摘要:教学档案是高校教学过程的原始记录,蕴含着大量信息和知识。在大数据时代背景下,海量教学档案为洞察教学规律、优化教学改革提供了重要数据基础,但同时档案数据的非结构化、异构性、动态增长性也带来质量管控、语义提取、关联挖掘等技术挑战。从框架构建原则、框架总体结构、关键技术方法三个维度讨论了教学档案内容挖掘框架设计,从挖掘主题生成、应用系统架构、应用效果评估三个层面论述了教学档案内容挖掘应用场景设计。
关键词:教学档案;大数据;应用场景;内容挖掘
随着大数据、人工智能、云计算等新兴信息技术的迅猛发展,档案数据的生成、存储和应用模式发生了重大变革。档案工作面临从数字化、数据化到信息化的三级进阶,档案形态向非结构化、多媒体化发展,档案来源渠道日益多元化[1]。这为档案资源深度开发利用、知识挖掘与价值再造带来了广阔空间。
作为高校教学管理的重要依据,教学档案是教学改革研究、教学质量评估、人才培养方案制定的基础性资料。规范化的教学档案管理是保障教学工作有序开展的重要基础。教育部等六部门联合印发的《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》,明确提出要发挥数字教育资源的赋能作用,强化教育数据的汇聚融通和开发利用。在教育数字化转型的大趋势下,加快教学档案从纸质到数字、从数字到数据、从数据到智慧的升级迭代,建立完善的教学档案大数据治理体系,对提升教学管理信息化和精细化水平、助推教育高质量发展意义重大。但目前高校教学档案管理还存在着归档不全面、标准不统一、共享不充分、利用率不高等问题[2]。如何推动教学档案管理从被动保管向主动服务转变,从资源管理向知识管理延伸,最大程度地挖掘其内在价值,形成有针对性、接地气的管理决策支撑,是亟待解决的现实问题。
1 教学档案内容挖掘框架设计
1.1 框架构建原则
一是全面性原则。即在教学档案数据采集和管理中,要尽可能地收集各类与教学相关的原始档案,涵盖教学计划、教学日志、考试试卷、学生作业、教学评价等完整的教学档案类型。档案获取渠道除传统的移交进馆外,还需搜集各业务系统、教学平台中的电子文档以及视频、音频等非结构化数据。同时关注不同专业、课程、教师的档案,确保档案来源具备代表性、典型性与全面性。二是系统性原则。即在进行教学档案数据处理和知识生成时,应结合教与学两个维度,既要分析教师教学组织实施的特点,又要考查学生学习过程与结果;既要总结课程教学的共性规律,又要关注不同专业和学科的特殊性,进而多维度、多层次地揭示教学的内在机理和有效模式。三是时效性原则。即教学档案从生成、积累到内容加工、知识应用,要与教学实践的进程同步,为教学诊改提供及时的数据反馈与决策参考。要建立教学档案收集、处理、更新的常态化机制,并构建快速检索、精准推送的应用通道。对于新出现的教学方式、教学问题,要灵活补充相关档案,持续优化内容挖掘模型,以适应教学变革和管理创新的现实需求。
1.2 框架总体结构
一是数据采集层。数据采集层的任务是获取教学档案的原始数据。除档案馆接收移交的各类教学文件外,还要与教务系统、在线教学平台、实验管理系统等主要业务系统以及教师个人存储的非正式档案对接,通过数据接口、网页抓取、人工上传等方式归集教学档案数据。档案从业人员要制定统一的著录标准和规范,控制采集的范围、频率、形式,确保数据的一致性、完整性。
二是数据存储层。数据存储层负责教学档案的安全、高效存储管理。要设计教学档案元数据方案,对每个档案的标题、主题、作者、时间、格式、关键词等属性进行规范化描述。考虑到档案具有异构性,存储方式应分类设计,如结构化数据应存储到关系型数据库,文本、图像等非结构化数据采用分布式文件系统或对象存储。同时要制定数据存储标准和安全防护制度,定期开展数据备份、容灾演练等,防止数据丢失或泄露。
三是数据处理层。数据处理层是教学档案内容挖掘的核心。根据挖掘的主题和内容,选择文本分析、语义分析、聚类、关联、预测等数据挖掘算法模型,通过数据清洗、转换、整合、训练等步骤,提取档案的重要特征,构建分析模型。主要任务包括:教学行为模式识别、学情特征分析、教学效果评价、教学问题诊断、优秀教学案例发现等。经过多轮迭代和专家反馈,不断优化算法,最终形成较为成熟的内容挖掘结果。
四是数据应用层。数据应用层是内容挖掘成果的展示和利用。一方面,通过数据可视化技术,将隐藏在海量教学档案中的关联特征、演化规律转化为直观生动的图表、雷达图等可视化界面,方便教学管理人员、教师理解把握。另一方面,将挖掘的知识嵌入具体的教学管理与决策场景,例如,以往教学问题的原因分析与对策参考、优秀教学案例的推荐与共享、教学计划与教学大纲的改进建议等,最终服务于教学实践,实现教学管理的数据驱动和精准施策。
1.3 关键技术方法
在数据采集阶段,使用的主要技术有分布式数据采集、智能数据抓取、数据交换与集成技术等。分布式数据采集通过在不同节点部署采集程序,并行获取分散在各系统中的异构档案数据。智能数据抓取可自动提取网页、文档中的关键内容,简化人工采编流程。数据交换与集成则借助ETL、API等工具,将异构数据源汇聚到统一的大数据平台进行管理。
数据清洗与标准化是提高教学档案质量的关键。主要采用缺失值填充、噪声过滤、一致性校验等数据预处理方法,结合档案业务规则,自动或人工校对档案,剔除错误、不完整的脏数据。进而按照档案著录规范和元数据标准,提取档案的题名、主题、责任者、文种、页数、存储格式等描述性信息,建立标准化的档案资源库,便于开展后续挖掘工作。
数据关联分析技术可以发现教学档案间的隐含联系,主要包括频繁模式挖掘、关联规则学习等。以教学日志中的高频术语、短语为例,可自动生成术语词典,揭示教学的重点内容。将学生成绩、考勤记录与作业完成情况等档案关联分析,则可发现影响学习效果的关键因素。通过多源异构教学档案的关联汇聚,构建教学资源知识图谱,为深度内容挖掘提供数据支持。
数据可视化技术在教学档案内容挖掘中也发挥了重要作用。常用方法有统计图表、地图、网络、树形图等。例如,利用词云、主题河流图,可直观展示教学档案的主题演化趋势。对学生档案进行聚类可视化,有助于掌握学生群体的差异特征。将教学过程与教学效果进行关联映射,可形成教学活动热力图,便于识别热点教学环节。
2 教学档案内容挖掘应用场景设计
2.1 挖掘主题生成
教学档案内容挖掘的目的是服务于教学管理与决策,因此,主题的选择应紧密结合教学实践需求。通过对教学管理者、一线教师等进行访谈,分析教学工作的痛点、难点,同时对主要的教学档案类型、业务流程进行梳理,初步确定内容挖掘的方向和重点[3]。
在此基础上,可采用主题模型等文本挖掘技术,从教学档案语料中自动提取主题词。常用的主题模型包括LDA、LSA等,通过对词频、共现、语义相似度的统计分析,识别词语之间的隐含关系,聚合形成主题。还可利用教学本体库、高频术语词典等领域知识,辅助完善主题词的提取。结合专家经验判断,对候选主题进行筛选、归并,最终形成内容挖掘主题库。
热点教学问题是指教学实践中普遍关注、亟须解决的重难点问题。基于教学档案的内容挖掘,可快速发现热点教学问题并探究其成因。首先,对教学工作总结、教学评价、教学反思等非结构化档案进行文本分析,提取高频问题词并排序,直观呈现热点问题分布。其次,将问题域与学生成绩、教学过程、教师特征等档案数据进行关联,深入剖析问题产生的影响因素。经综合分析,可概括凝练教学问题的主要表现及诱因,进而有针对性地制定整改措施。
教学模式比较分析是利用内容挖掘方法,从教学组织形式、课程实施方式、教学策略运用等多角度对不同课程、专业、学院的教学档案进行对比研究。可基于教学大纲、授课计划、教案、教学日志、学生反馈等原始档案,抽取反映教学模式的特征,如教学内容选取、教学活动设计、考核评价方法等。通过聚类、异常检测等模式识别技术,可将教学模式划分为若干类型,进而分析不同教学模式下学生的学习参与度、课堂互动情况、学习效果等差异,结合授课教师访谈,探究各类教学模式的优缺点及其形成原因,从而针对性地提出优化或改进教学模式的建议,促进教学方式方法的创新。
2.2 应用系统架构
教学档案内容挖掘应用系统的功能模块主要包括数据处理、内容挖掘、知识库管理、可视化展示、智能检索五大部分[4]。数据处理模块负责爬取、导入教学档案原始数据,并进行数据清洗、转换、集成等预处理。内容挖掘模块嵌入各类数据挖掘算法模型,针对教学问题诊断、教学行为分析、教学评价等主题,形成结构化的分析报告。知识库管理模块基于本体构建教学资源描述框架,形成教学领域语义关联网络,集成教学档案、内容挖掘结果,支持语义检索、推理、问答。可视化展示模块通过图形、表格、地图等多种可视化形式,直观呈现内容挖掘结果。智能检索模块能根据用户输入的关键词,快速匹配、关联教学档案和挖掘报告,提供个性化、精准化的搜索服务。
教学档案内容挖掘应用系统实现流程主要包括数据接入、数据治理、模型训练、任务管理、服务发布等环节。首先,通过与教学业务系统对接,批量接入各类教学档案,同时转换、映射异构数据,统一管理元数据。在数据标准化的基础上,进行数据质量诊断、数据清洗、数据脱敏等治理操作。基于主题生成结果,构建数据挖掘模型,并根据需求不断优化调整模型参数。内容挖掘以任务形式进行管理,可自定义任务名称、描述方式、执行周期、目标对象等。针对不同应用场景开发We b服务接口,以API方式封装内容挖掘结果,集成到相关业务系统的界面,实现一站式调用。整个流程采用微服务架构,各功能模块低耦合、高内聚,易于扩展、灵活组合,有助于提升系统性能。
2.3 应用效果评估
教学档案内容挖掘的效果评估,需要制定科学合理的评估指标与方法。可从挖掘结果质量、系统使用绩效、用户满意度等方面设计定量或定性指标。挖掘结果质量指标,如主题相关度、知识重要度、一致性等,主要考查内容挖掘的专业性和准确性。系统使用绩效指标,包括响应时间、并发处理能力、挖掘任务完成率、异常率等,反映系统的性能表现。用户满意度评估可通过问卷调查、访谈等方式,了解教学管理人员、教师对挖掘结果的认可程度和使用体验,收集功能、界面改进建议。分析研究评估结果有助于不断改进内容挖掘模型,优化知识组织方式和应用流程,提高服务教学管理的针对性和有效性。
教学档案内容挖掘成果可在多个场景应用,为教学诊改、质量评价、教研指导等提供数据支持。一是应用于日常的教学计划、教学大纲修订。基于学情分析、教学问题诊断等结果,审视教学目标、教学进度、教学策略的合理性,动态调整优化,形成闭环改进机制。二是应用于学期、学年教学总结。自动生成教学基本情况统计表、教学效果评价表等,并对教学特色、教学亮点进行提炼,固化教学改革成果。三是应用于专业评估、课程评价。构建多维教学质量评价指标,提供评估相关数据,解释评估结论。四是应用于教师教研和培训。将优秀教学案例、教学问题分析推送给教师,引导教师主动进行经验交流和反思改进。五是应用于教学管理决策咨询。内容挖掘成果可为制定教学改革政策提供依据,如确定教学创新项目立项方向,推广教学新模式,优化教学资源配置等。
参考文献
[1]李家和,郑慧.档案的数智化开发利用:现实背景、主要问题和优化对策[J].山西档案,2024(8):37-42.
[2]金波,添志鹏,杨鹏.大数据时代档案数据治理运行机制建构[J].档案学研究,2023(4):65-73.
[3]於菊红,陈诚,王宾剑,等.大数据背景下档案数据资源开发探析:内涵、缘起与路径[J].兰台世界, 2023(S1):145-147.
[4]孙铭宵,周丽霞.我国档案数据治理研究进展:发展态势及热点分析[J].山西档案,2023(1):172-187.
【作者简介】傅筠(1987—),女,汉族,江苏滨海人,江苏海事职业技术学院教务处助理研究员,硕士,研究方向:教学管理。