教育大数据的分类与结构
《课程教材教学研究》官方投稿邮箱:kechenggw@163.com
随着“三通两平台”建设、教学点数字教育资源全覆盖、中小学教师信息技术应用能力提升、精品开放课程建设等一系列国家信息化工程的大力度开展,以及全国各地数字校园、区域教育云的建设与完善,为教育数据...
随着“三通两平台”建设、教学点数字教育资源全覆盖、中小学教师信息技术应用能力提升、精品开放课程建设等一系列国家信息化工程的大力度开展,以及全国各地数字校园、区域教育云的建设与完善,为教育数据的采集提供了便利条件。此外,国内在线教育市场规模不断壮大,传统教育培训企业和互联网企业纷纷瞄准在线教育,推出多样化的在线教育产品和服务,为学校外非正规教育数据的采集提供了基础。教育数据每时每刻都在产生,然而教育领域究竟包含哪些数据?如何采集?不同的数据又指向何种教育应用?这些问题的解决是教育大数据建设与应用的关键。
1、教育大数据的分类教育数据有多种分类方式。从数据产生的业务来源来看,有教学类数据、管理类数据、科研类数据以及服务类数据。从数据结构化的程度来看,包括结构化数据、半结构化数据和非结构化数据。结构化数据适合用二维表存储,图片、视频、文档等非结构数据则不适合用二维表存储。从数据产生的环节来看,还可以分为过程性数据和结果性数据。过程性数据是活动过程中采集到的、难以直接量化的数据(如课堂互动、在线作业、网络搜索等),结果性数据则常表现为某种可量化的结果(如成绩、等级、数量等)。多年来,国家采集的教育数据主要以管理类、结构化、结果性的数据为主,重点关注宏观层面教育发展整体状况,在一定历史时期对我国制定教育政策、推动教育发展起到了积极的作用。然而,随着大数据时代到来,国际社会对教育大数据作为战略资产的地位越来越认可和重视,教育数据的全面化采集与深度挖掘分析就变得越来越重要。教育数据采集的重心将向非结构化、过程性的数据转变,这些数据无论从数量和增长速度上,还是潜在的价值上,都将远远超越传统的教育数据。2、教育大数据的结构模型为了更清晰地认识教育大数据的概貌,笔者构建了如下图所示的教育大数据结构模型。整体来说,教育数据可以分为四层,由内到外分别是基础层、状态层、资源层和行为层。其中,基础层存储国家教育基础性数据,包括教育部2012年发布的7个教育管理信息系列标准中提到的所有数据,比如学校管理信息、行政管理信息、教育统计信息等;状态层存储各种教育装备、教育环境以及教育业务的运行状态信息,比如设备的能耗、故障、运行时间、校园空气质量、教室光照、教学进程等;资源层存储教育过程建设或生成的各种形态的教学资源,比如PPT课件、微课、教学视频、图片、游戏、教学软件、帖子、问题、试题试卷等;行为层存储广大教育相关用户(教师、学生、教研员、教育管理者等)的行为数据,比如学生的学习行为数据、教师的教学行为数据、教研员的教学指导行为数据、管理员的系统维护行为数据等。不同层教育数据的主要采集与生成方式、应用场景也有所不同(见下表)。数据采集的难度从内向外逐步增加,尤其是行为层数据的采集最为复杂多变,对于传统的面授教学或者不使用技术工具的学习行为,很多数据仍无法采集。2.1基拙层数据一方面通过定期地人工采集实现国家规定的教育基础数据的逐级上报,如每年的招生、教师招聘等新产生的教育数据;另一方面通过系统之间的数据交换实现教育基础数据采集与更新,比如学籍系统、人事系统、资产系统等定期进行自下而上的系统数据更新。基础层数据属于高度结构化的教育数据,主要用于宏观掌控教育发展现状、科学制定教育政策、合理配置教育资源、持续完善教育体系等。其中,有些基础数据(如学籍、人事、资产等)具有高度的隐私性和保密性,属于国家重点保护的教育数据。2.2状态层数据采集方式有人工记录和传感器感知,当前主要以人工记录为主,随着传感技术的普及应用,未来的教育装备、教育环境以及教育业务的运行状态将实现全天候、全自动化的记录监控。状态层数据可用于高效管理与维护教育装备,打造更具人性化的教育环境,全面掌控各项教育业务运行状况等。2.3资源层数据总量巨大,形态多样,大都属于非结构化数据。资源的产生主要有两种途径:一是专门建设,包括国家组织的精品开放课程资源、企业自主开发的各种学习培训资源与工具、个体自发建设的教学课件等;二是动态生成,在教学过程中产生的各种生成性资源(如讨论、试题、笔记等)。海量优质的资源是实现教学模式创新和教学方法变革的基础,比如当前基于微课的翻转课堂、基于MOOC的开放创新教学、基于电子书的移动学习等。随着移动与开放教育浪潮的兴起,微课、电子书、APP应用、慕课等将成为未来重要的学习资源。2.4行为层数据教育行为有很多种,比如收发公文、录人成绩、设备报修、财务报销、教师备课、学生写作业等。其中,教学行为数据(包括教师的教和学生的学)在所有行为层数据中占据主导地位。大数据时代可以采集更多、更细微的教学行为数据,比如学生在何时何地应用何种终端浏览了哪些视频课件、观看了多长时间、先后浏览顺序、是否跳跃观看等细颗粒度的行为都将以日志记录的形式被保存下来。GPS定位、情境感知、移动通信等技术使得各种教与学行为的日志信息更加丰富,不仅仅可以记录什么人在什么时间什么地点做了什么,还可以采集到行为发生时周边的环境信息、个人体征信息、情绪状态等。这些看似无用的数据都将成为后期数据挖掘与学习行为分析的宝贵数据源,为个性化学习、发展性评价、学习路径推送、教学行为预测等提供数据支持。3、教育大数据的价值潜能2015年8月31日国务院发布《促进大数据发展行动纲要》,文件指出“数据已成为国家基础性战略资源”,并在启动的十大工程之一“公共服务大数据工程”中明确提出要建设教育文化大数据。由此可见,教育大数据的重要性已经上升到国家战略层面,引起社会各界的广泛关注和高度重视。3.1教育大数据的战略定位大数据时代,教育数据的价值正在被广大教育者重新认识和评估。教育数据不再仅仅是一堆用作统计的简单“数字”,其正在成为一种变革教育的战略资产和科学力量。3.1.1教育大数据是一种教育战略资产随着大数据理念在全球的发酵,以美国、英国、法国等为代表的发达国家率先将大数据作为新型战略资源,视其为“未来的石油”。数据作为战略资产的观念被越来越多的国家所认可,国际社会纷纷通过“公共数据开放”运动激发数据活力,以期创造更大价值。理论上讲,任何领域有了人的活动,都可以持续不断地产生大数据,教育领域也不例外。随着全球教育信息化的快速发展,教育数据正在以几何级的规模递增。以一节40分钟的普通中学课堂为例,其中一个学生所产生的全息数据约有5一6GB,而其中可归类、标签并进行分析的量化数据约有50-60MB。除了传统学校教育产生的数据外,互联网教育市场每天也在产生海量的教育数据。目前我国教育规模位居世界首位,仅在校生就有2.6亿(人民网,2013)。如此大规模的教育,必将产生世界量级的教育大数据,而如何发挥这笔“资产”的价值则成为我国教育赶超欧美的关键。教育大数据是一种无形的资产,是一座可无限开采的“金矿”,充分的挖掘与应用是实现数据“资产”增值的唯一途径。西方发达国家已经先行一步,我国也应该加速布署教育大数据战略,强化教育大数据战略资产意识,让每个人都成为教育数据的缔造者和受惠者,并顺应数据开放趋势,通过教育大数据的适度公开,汇聚广大民众、企业、政府等多方智慧,使教育数据资产实现源源不断的增值。3.1.2教育大数据是教育领域综合改革的科学力量当前我国教育还不完全适应国家经济社会发展和人民群众接受良好教育期盼的要求,存在一系列发展难题,比如:中小学生课业负担过重,素质教育推进困难;学生创造力不足;城乡之间、区域之间教育发展不均衡;教育公平问题长期存在;高等教育规模飞跃式扩张导致本科教学质量下滑;各地校园安全事件频发等等。改革是解决教育发展难题的唯一途径,党的十八届三中全会提出要“深化教育领域综合改革”,将促进教育公平和提升教育质量、考试招生制度改革和教育管理体制改革作为改革的重点任务。虽然我国教育改革的攻坚方向和重点举措已经明确,但是如何科学、有序、有效地全面推进改革则成为亟需解决的关键问题。教育改革是复杂的系统工程,需要综合考虑经济、文化、社会等因素,而大数据最擅长的就是关联分析,即从繁杂的交叉领域数据中寻求有意义的关联。大数据是一股创新的力量,是一股时代变革的力量,也是一股推动教育领域全面深化改革的科学力量。因此,确立教育大数据的战略地位已是教育领域综合改革的必然要求。改革既要有胆魄,更需要科学的依据。教育大数据将汇聚无数以前看不到、采集不到、不重视的数据,对这些混杂数据进行深度挖掘以及与其他领域(如公安、交通、社保、医疗等)的大数据进行关联分析。教育决策将不再过度依靠经验、拍脑袋和简单的统计结果,而转向基于数据的科学决策。招考制度、管理体制以及教育公平与质量提升,无论是宏观的制度与体制改革,还是微观的教学方法和管理方式的改革,都可以通过科学的数据分析寻找问题的症结所在,识别不同地区教育发展的独有规律,然后对症下药,实施改革。3.1.3教育大数据是发展智慧教育的基石世界范围内的教育信息化建设正在走向融合创新的深层次发展阶段。在物联网、云计算、大数据、移动通信等新一代信息技术的推动下,世界上多个国家和地区已将智慧教育作为其未来教育发展的重大战略。新加坡在《iN2015计划》中提出实施智慧教育战略计划,韩国于2011年颁布了“智慧教育推进战略”的国家教育政策,美国在2010年发布的《国家教育技术计划》虽未提到智慧教育,但其倡导信息技术支持下教育系统的全方位、整体性变革的理念与智慧教育不谋而合。技术变革教育的时代已经到来,从数字化教育转向智慧教育正在成为全球教育发展的重要趋势。智慧教育是依托物联网、云计算、无线通信、大数据等新一代信息技术所打造的物联化、智能化、感知化、泛在化的教育生态系统,是数字化教育的高级发展阶段。各种智能型技术是构建智慧教育“大厦”的技术支柱,其中大数据是实现教育智慧化的灵魂所在。教育大数据汇聚存储了教育领域的信息资产,是发展智慧教育最重要的基础。教育大数据将促进教育发生几个方面的重要转变:其一,教育过程从“非量化”到“可量化”,教与学的行为信息将越来越精确地被记录下来;其二,教育决策从“经验化”到“科学化”,数据驱动的决策将变得越来越可靠;其三,教育模式从“大众化”到“个性化”,学习分析技术将赋予教师认识每个“真实”学生的能力,实现因材施教;其四,教育管理从“不可见”到“可视化”,通过可视化技术将实现更直观、更准确、更高效的教育资源与业务管理。3.2教育大数据的价值体现在政府、企业、学校、研究机构、行业协会等社会力量的推动下,大数据在社会各行各业的战略价值正在逐步凸显。教育领域的研究者和实践者也在积极探寻大数据技术与教育最适合的结合点和实施方式。教育大数据的最终价值应体现在与教育主流业务的深度融合以及持续推动教育系统的智慧化变革上。3.2.1教育大数据驱动教育管理的科学化当前我国的教育管理信息化仍属于“人管、电控”的管理模式,智能化程度不高,管理水平和效率有待提升。随着国家教育管理公共服务平台的建设与运营,我国教育数据的采集工作将越来越规范化、有序化和全面化。大数据时代,教育数据的分析将走向深层次挖掘,既注重相关关系的识别,又强调因果关系的确定。大数据技术能够从海量的教育数据中发现隐藏的、有用的信息,反映教育系统中实际存在的问题,从而为做好教育管理和决策工作提供科学的数据支持。大数据在教育管理业务中的应用价值主要体现在三个方面:一是教育的科学决策,二是教育设备与环境的智能管控,三是教育危机预防与安全管理。大数据除了可以对各级各类教育单位的人员信息、教育经费、学校办学条件、运维服务管理等数据进行图表式的统计与分析外,还可以基于各级各类教育机构长期的数据积累,整合社会人口分布、经济发展、地理环境等从各类跨行业操作级的应用系统中提取有用的数据,通过数据统计、指标展现、横向对比、趋势分析、钻取转换等技术方法将数据转化为知识,为各级管理人员的科学决策提供数据支持。美国政府早在2002年就通过立法的形式确定了教育数据在支持教育科学决策方面的重要地位。纵观我国十几年的新课程改革历程,虽然在课程内容、教学方法、教学环境等方面取得了进步,但实际的改革效果远未达到预期状态。其中的要因之一便是忽视了教育数据在课程改革诸多决策上的重要性,使改革更趋向于理性思辨和经验决策。可以采取如下措施促使教育大数据驱动教育管理的科学化:通过设置全方位的传感器,对教育管理过程中的教学活动、人员信息、学校资产及办学条件等数据进行采集、汇总、挖掘与分析,并对数据分析结果进行可视化处理。根据各级各类教育管理机构的需求,建立自上而下的教育管理和调度指令发布功能。对各级各类教育管理机构所需的各方面信息与数据、资产设备、教学活动、企业运维服务管理数据等进行远程可视化质量监控与管理。通过对教育设备的智能化管控,实现设备的科学使用,降低能耗和管理负担,节约开支。比如江南大学建设了“校园级”智能能源监管平台,该平台通过物联网、通信、信息、控制、检测等前沿技术智能化监管能源,将原来能源管理过程中的“模糊”概念变成清晰数据,为管理者提供更好、更科学的决策支持,打造低碳绿色校园。近年来校园安全问题已成为社会关注的热点。通过对传感设备所采集的数据以及信息系统所汇聚的数据进行实时监控与对比分析,可以对校园的安全运行状况进行预警,以提前预防、妥当处理教育危机,提高教育安全管理水平。此外,大数据在提升学校网络安全。改善教学和科研管理、完善学生救助体系、促进区域教育均衡发展等方面也有极大的应用价值。3.2.2教育大数据驱动教学模式的改革通过应用大数据技术对海量教学数据进行分析与预测,将改变传统千篇一律的教学模式,有利于真正实现个性化教育。以翻转课堂、MOOCs等为代表的新型教学模式的成功开展,离不开大数据的支持。通过对学生学习历程记录的分析,教师能够快速、准确掌握每位学生的兴趣点、知识缺陷等,从而为设计更加灵活多样、更具针对性的学习活动提供数据支持。传统预设的固化课堂教学将转变为动态生成的个性化教学。在大数据的支持下,教师能够更好地认识自己和学生,以不断改进其教学模式与策略,并且在学生进行自我导向学习时,真正变成学生学习的促进者与协作者。利用大数据技术可以对教师进行全面考核,跟踪教师成长过程,还可以运用回归分析、关联规则挖掘等方法帮助教师分析教学方法和手段的有效性,使教师及时调整教学方案,优化教学方法,提高教学质量。近年来应用大数据技术改善课程教学日渐流行。美国奥兰治县的马鞍峰社区学院通过“高等教育个性化服务助理”系统,运用学生数据成功实施了个性化教育。该软件为每个学生建立详细档案,记录其完整的在校期间的日程信息、跟随导师学习的经历以及其他个人信息;接着对这些信息进行分析,提出对时间管理、课程选择的建议,以及分析其他有助于学生在学业上获得成功的要素。美国普渡大学早在2007年就启动了“课程信号项目”,通过将数据从学生信息系统、课程管理系统和课程成绩单中提取出来,按照学习表现进行分类,并利用数据分析技术对那些极有可能不及格或辍学的学生提供针对性的辅导服务。大数据技术的突出优势在于其拥有强大的“预判”能力,从商业计划到选举结果,大数据发挥着越来越精准的预言能力。随着教育大数据应用的逐步深人,预测性分析在消除教育不确定性、提供提前干预方面潜力巨大,越来越多的公司推出了基于数据驱动的个性化学习和教学工具。如著名的个性化教育服务公司Desire2Learn利用其分析平台“学生成功系统”,可以提前几个月预测学生的期末考试成绩,甚至能精确到小数点后两位数字。学生可以利用Desire2Learn的学习管理平台阅读课程材料、提交家庭作业、做练习、提问题、交流互动等,所有这些活动数据将自动存储下来。基于上述原始学习过程数据,"S3”可以预测学生是否适合一些新的课程,从而辅助学生做出选课决定。"S3”具有多样化的模型管理、预测和数据可视化能力,教师不仅可以查看整个班级表现的报表,并能像传统联机分析工具OLAP那样,对教学报表进行钻取,筛选学生或课程的详细信息,以检视学生的能力、参与度和评估分数。此外,"S3”综合应用多种预测模型,能够基于每门课程来准确预测每位学习者的课程学习情况,辅助教学人员提供恰当的教学介人,提高学生课程学习的成功率。