教育数据挖掘研究进展
李宇帆1,张会福2,刘上力2,唐
兵1
1.湖南科技大学计算机科学与工程学院,湖南湘潭411201
2.湖南科技大学网络信息中心,湖南湘潭411201
摘
要:教育数据挖掘(EducationalDataMining,EDM)是一门涉及计算机科学、教育学、统计学的交叉学科。它致
力于探索来自教育环境的独特数据,其目的是更好地了解学生及其学习环境,从而提高教育成效。为了深入分析EDM的研究进展,从WebofScience库相关文献、国内外研究现状对EDM进行了系统性梳理,介绍了EDM的工作流程,把数据挖掘技术在教育领域的应用归纳为4类,对处于快速发展阶段的一些EDM典型案例进行了统计分析并讨论了其不足与发展趋势。
关键词:教育大数据;教育数据挖掘;数据挖掘文献标志码:A
中图分类号:TP311
doi:10.3778/j.issn.1002-8331.1903-0153
李宇帆,张会福,刘上力,等.教育数据挖掘研究进展.计算机工程与应用,2019,55(14):15-23.
LIYufan,ZHANGHuifu,LIUShangli,etal.Researchprogressoneducationaldataminging.ComputerEngineeringandApplications,2019,55(14):15-23.
ResearchProgressonEducationalDataMining
LIYufan1,ZHANGHuifu2,LIUShangli2,TANGBing1
1.SchoolofComputerScienceandEngineering,HunanUniversityofScienceandTechnology,Xiangtan,Hunan411201,China2.NetworkInformationCenter,HunanUniversityofScienceandTechnology,Xiangtan,Hunan411201,China
Abstract:EducationalDataMining(EDM)isaninterdisciplinaryresearchfieldwhichisconcernedwiththreemainareas:computerscience,educationandstatistic.Itsgoalistobetterunderstandstudents,thesettingswhichtheylearninandimproveeducationaleffectbyexploringtheuniquedatathatcomesfromeducationalsettings.InordertounderstandresearchprogressonEDM,systematicaloverviewofrelativeliteraturesfromWebofScienceandrelatedresearchathomeandabroadismadefirstly.Theneducationalknowledgediscoveryanddataminingprocessisintroduced.Next,itdiscussesthedataminingtechnologyintheapplicationoffourcategoriesineducationdomain.Finally,sometypicalinstancesinrapiddevelopmentstageareanalyzedanddiscussed.
Keywords:educationalbigdata;educationaldatamining;datamining
1引言
(http://www.educationaldatamining.org)对EDM的定义数据挖掘(DataMining,DM)是通过一定算法从海
则是:“教育数据挖掘是一门新兴的学科,它致力于开发量数据中发现隐藏的模式和知识的过程[1],在银行、保新的方法来探索来自教育环境的独特的且规模日益变险、金融等领域已得到了广泛的应用。随着教育信息化大的数据,并使用这些方法来更好地理解学生及其学习的发展、智慧校园的建设以及教育大数据呈指数型增长环境。”实际上,EDM也可以被理解为是DM在教育大让EDM应运而生,其旨在分析教育环境中为解决教育数据中的应用,这不仅是数字化教育研究的体现,也是研究问题而产生的独特数据[2],教育数据挖掘社区
教育信息化发展的必然需求[3],目前有许多基于计算机
基金项目:国家自然科学基金(No.61602169);湖南省自然科学基金(No.2018JJ2136);网络信息安全虚拟仿真中心项目(No.G21652)。作者简介:李宇帆(1996—),男,硕士研究生,CCF学生会员,研究领域为数据挖掘,E-mail:494958939@qq.com;张会福(1970—),
男,博士,教授,研究领域为嵌入式系统应用和智能诊断;刘上力(1978—),男,工程师,研究领域为软件工程和数据挖掘;唐兵(1982—),男,博士,副教授,研究领域为并行与分布式计算、大数据、区块链。
收稿日期:2019-03-12
修回日期:2019-04-26
文章编号:1002-8331(2019)14-0015-09
CNKI网络出版:2019-05-23,http://kns.cnki.net/kcms/detail/11.2127.TP.20190522.1757.006.html
162019,55(14)ComputerEngineeringandApplications计算机工程与应用
的学习系统收集大量的教育数据,如学习管理系统350(LearningManagementSystem,LMS)、大规模开放在300线课程(MassiveOpenOnlineCourses,MOOC)和智能250辅导系统(IntelligentTutoringSystem,ITS)等,许多论数200篇150文的研究数据便是来自于此。教育大数据与数据挖掘100整合而成的EDM近年来受到越来越多的研究者关注。
50本文介绍了EDM的背景和工作流程,对EDM的应0
1999200420052006200720080用进行了归纳分类,重点对快速发展阶段的EDM研究200921020112012201320142015201620172018成果作统计与分析,并对EDM研究进行了总结与展望。
1995—2000—年份
图21995—2018发文量
2EDM发展概述2.3国外EDM研究现状
2.1EDM
国外对于EDM的研究起步较早,在WebofScience
EDM是一个由计算机科学、统计学、教育学三个学库中1995年便已有相关论文发表,至今已有一系列综
科方向相结合的交叉领域,如图1所示[4]。而这三门学述发表[4,6-11]
。文献[6]对1995—2005年的EDM研究成果
科两两交叉也形成了基于计算机的教育(Computer-进行了总结,文献[7]发表于2009年,对早期EDM的工BasedEducation,CBE)、数据挖掘与机器学习(Data作进行了概述,并认为EDM在未来的教育领域将有更MiningandMachineLearning,DM&ML)以及学习分大的影响力,2012年美国国家教育部发布了《通过教育析(LearningAnalytics,LA),这3个领域中与EDM最相数据挖掘和学习分析促进教与学》,对EDM在美国教育似的是LA,两者在研究方向和研究人员上有相当大的领域的应用现状以及存在问题进行了详细介绍[8],也吸重叠,但EDM研究者通常使用自动化的方法如数据挖引了更多研究者投身于EDM领域,文献[4]发表于2013年,掘与机器学习来探索教育数据,而LA研究者对人类主对EDM的背景、挖掘过程、常用方法以及发展历程做了导的方法更感兴趣。自动化的方法通常可以实现更高比较全面的介绍,文献[9]对2010至2013年间发表的约的预测精度,而人类主导的方法可以产生更易于理解的240篇EDM应用案例进行了分析,发现大多数EDM应模型[5]。
用研究都基于三个部分组成,即教育任务、方法和算法,计算机科学
文献[10]则发表于2017年,作者在回顾之前文献的基础基于计算
数据挖掘与上,对聚类算法及其在EDM中的适用性和可用性进行机的教育教育数据机器学习
了长达30年(1983—2016年)的系统文献综述,并指出挖掘
发展半监督聚类算法是下一步研究方向,文献[11]发表教育学
学习分析统计学于2018年,回顾了EDM在2010年至2017年的发展,将其应用场景分为多个类别并为每个类别介绍了一些具图1EDM相关研究领域
有代表性的例子。
2.2文献分布特点
2.4国内EDM研究现状
为了了解教育数据挖掘的研究现状,本文在Web
国内EDM的应用起步相对较晚,以“教育数据挖
ofScience核心合集数据库中以“educationaldatamining”掘”为关键词在中国知网进行检索,最早的EDM相关学为主题进行了检索,时间限制为1995年至2018年,共检术论文发表于2002年,随后几年该领域论文数量缓步索到论文1435篇,并对检索结果进行了简单的统计分析。
增加,因此可大致分为三个阶段(国外EDM研究除第一从图2的检索结果可知,EDM研究在2008年之前阶段起始年份为1995外,后两阶段与国内大致相同)。
发文量较少,从2008年开始有所起色,每年发文量逐年一是萌芽阶段(2002—2012),随着Coursera、中国增加,这主要因为2008年在加拿大蒙特利尔召开的第大学MOOC等平台和教育信息化的发展,EDM在国内一届EDM会议吸引了研究者的关注。2012年发文量略的研究规模也开始壮大。李婷等人[3]对2010年之前国有回落,可能是因为Coursera、Udacity和edX三大MOOC内外EDM的现状、研究的关键内容以及研究趋势进行了平台的上线对EDM领域有所冲击,但当研究者将EDM阐述,葛道凯[12]系统梳理了国内外关于E-Learning数据技术应用于慕课这类在线学习平台后,开发出了新的研挖掘的研究进展,并采用格语法分析方法对“E-Learning”究方向,使得EDM研究发文量在之后几年大幅上升,并的关键要素和过程进行了分析。
远超出之前下降的发文量,而2018年发文量较低的原二是兴起阶段(2013—2014),2013年大数据时代到因可能是部分文献尚未统计至WebofScience库中。
来之后[13],教育大数据作为大数据的子集也开始受到教
李宇帆,等:教育数据挖掘研究进展2019,55(14)17
育领域专家的关注[14],如徐鹏等人[15]通过对2012年美国教育的角度来看,这是一个从教育环境产生的数据中发国家教育部发布的《通过教育数据挖掘和学习分析促进现知识并重用它来改善教育环境的循环,教育环境既是教与学》报告进行了解读,认为已经进入了一个“数据驱EDM研究的起点(数据来源),也是EDM研究的终点动学校,分析变革教育”的大数据时代,陈池等人[16]
介绍(优化、改进的对象),并且是EDM不同于DM的要素。了EDM、LA等大数据技术,并设计了面向在线教育领下文将介绍在EDM研究中的教育环境以及3个处理阶段。
域的大数据模型,为在线教育领域大数据的研究提供了思路。
数据准备
数据挖掘
分析与评价
三是快速发展阶段(2015至今),经过了两年多的“发酵”,EDM在2015年引起了空前关注,《中国基础教数据
数据预数据解释与育大数据发展蓝皮书》中认为2015年是“中国教育大数处理
挖掘评估据元年”,EDM领域文献量也开始爆发式增长,如周庆数据源
未处理
已处理模型或模式
知识
等人[17]主要从不同教育环境介绍了EDM的研究成果,数据
数据
并讨论了在大数据时代下EDM所面临的机遇和挑战,杨现民等人[18]介绍了教育大数据的特征和发展历程,最教育环境
后针对当前我国教育大数据发展存在的问题和挑战,提图3EDM流程图
出了六点政策建议。柴艳妹等人[19]从WebofScience数据库收集2008年至2017年3月相关文献进行了统计3.1教育环境
和可视化分析,对数据挖掘技术在线学习行为研究中的根据教育环境(传统课堂教学环境、基于计算机或
应用从5个方向介绍了相关研究成果。于方等人[20]在介网络的教学环境)的不同,可以收集不同种类的数据从绍了近10年EDM研究现状之后,提出了“以用户为中而解决不同的教育问题[21],这些未处理数据通常包含结心”的EDM应用研究框架。而在2018年5月《中国基础构化数据(如学生数据库等)、非结构化数据(如教学视教育大数据发展蓝皮书(2016—2017)》的发布提出了教频、英语音频和学生图像等)以及半结构化数据(如邮育大数据六大发展趋势以及面临的五大挑战,同时也向件、教学资源库等),如果想将这些数据进行数据整合和教育行业提出了一系列发展建议,对于促进国内教育大集成,那么异构性和多层次性将是严峻的挑战,这时就数据行业和教育数据挖掘的健康发展具有重要意义。
需要采用数据预处理技术。
虽然近年来EDM在国内取得了较大的进展,但总3.2数据预处理
体上仍然存在3点不足:
数据预处理包含数据清理、数据规约、数据变换等
(1)对国外研究成果的评价与总结较多,对国内教传统方法[22],而教育环境下的数据预处理是一件重要而育现状的研究较少。
且复杂的工作,有时数据预处理本身占解决EDM问题(2)技术深度不足,大多国内EDM研究成果发表于总时间的一半以上[4]。此外,像特征选择[23]、数据平教育类期刊而不是技术类期刊。
衡[24-25]等技术也经常被用来解决教育大数据存在的数据(3)目前国内还未创立专门的EDM期刊或会议。
不平衡以及高维度等问题。数据预处理是后续工作的基础,直接关系到后续工作的质量和效率。
3EDM工作流程
3.3数据挖掘
图3展示了EDM将数据转换为知识的流程,即数
数据挖掘技术中的分类与回归、聚类、关联规则、推
据准备、数据挖掘以及分析与评价阶段。从数据挖掘的荐系统等方法在教育领域已得到了广泛的应用[26],但即角度来看,EDM工作流程与DM相似程度很高,均包含便是相同的算法在教育领域内也有不同的应用场景,具数据预处理、数据挖掘以及解释与评估这3个阶段。从
体见表1。
表1
数据挖掘算法与EDM应用
方法机制
常见算法
EDM应用
分类与回归
预测数据对象所属类别(离散变量)或
决策树[27]
、贝叶斯[28]
、支持向量机[29]
、
学生成绩预测、学习风格预测、
它的取值(连续变量)
线性回归[30]、逻辑回归[28]等判断学生是否辍学等聚类将一组数据对象集合分成由类似的
对象组成的多个类的过程k-means[31]、fuz-zycmeans[32]等
关键词聚类分析、学生分组等
关联规则发现数据对象之间的关联或相关性Apriori算法[33]、FP-树频集算法[34]等课程推荐、关联分析等推荐系统
将可能受喜好的资源推荐给使用者
协同过滤、基于的内容推荐、混合
试题、学习方法等个性化学习
推荐等[35]
资源推荐
182019,55(14)ComputerEngineeringandApplications计算机工程与应用
3.4解释与评估
程学习记录进行关联规则分析,为学生推荐合适的课程。
利用数据挖掘得到的模型在这一阶段进行解释与
此外,一些研究者也在个性化学习服务中使用了其评估,从而判断其是否能达到预期效果。解释与评估中他技术,如Cheon等人[45]设计了一种以教师为中心的干应用最广泛的是可视化技术,使教育者能够清楚地了解预措施,即教师根据小组讨论、调查问卷的结果调整教挖掘出的结果,并做出精确的教学决策。对于利用分类
学激励方式,为学生内在动机的培养提供环境。Lai等算法建立的预测模型而言,混淆矩阵(confusionmatrix)
[36]
人[46]开发了一个自适应的学习系统来支持翻转课堂学是常用于判断分类好坏程度的方法,其评价指标包含准习活动,该系统由课外学习系统、自律监控系统、教师管确率(accuracy),即在全部样本中被分类器识别正确的理系统和数据库组成,可以监控学生学习过程并提供学百分比;精确率(precision),即预测为正的样本中真正习策略。
的正样本所占百分比;召回率(recall),也被称为灵敏度4.2学生学习效果研究
(sensitivity),即正样本被正确识别的百分比,F-Score作预测学生的学习效果是EDM中一个常见的应用领
为精确率和召回率的加权调和平均也可以评价分类模域,研究者通常使用学生个人信息、各门课程历史数据型好坏。此外,还有ROC(ReceiverOperatingCharac-以及学习行为等数据通过分类和回归等算法建立模型teristic)曲线、AUC(AreaUnderCurve)[37]等可用于评估
来预测学生未来的学习表现。
分类器性能。
Asif等人[47]使用决策树、朴素贝叶斯、随机森林等评价聚类算法效果的好坏,即聚类验证(cluster10种分类算法基于210名学生的大学预科成绩来预测validation)的评价指标包括邓恩指数(Dunn’sindex)、兰学生大四时的成绩。蒋卓轩等人[48]基于北京大学在德指数(Randindex)、轮廓系数(silhouettecoefficient)等[38]。
Coursera上开设的6门慕课共8万多人次的学习行为数据,其余数据挖掘算法的评价指标由于篇幅限制在此使用判别分析、Logistics回归和线性核支持向量机建立便不再赘述。
三种分类模型来预测学生是否获得证书。Okubo等人[49]使用了基于LSTM的循环神经网络来预测学生期末成4教育数据挖掘应用方向
绩,该模型在学期第1~6周的学生数据上便已达到了无论教育数据挖掘采用哪种数据挖掘方法,其目的
93%的预测精度。Jishan等人[50]使用朴素贝叶斯、决策都是为了有效地支持教与学。本章将详细介绍数据挖树以及人工神经网络3种分类模型与经过不同预处理的4掘技术在教育领域的应用场景。
组数据寻找最优组合来预测学生成绩。Fernandes等人[51]4.1个性化学习服务
使用梯度提升机分类方法分析影响学生成绩的因素。
个性化学习服务可以满足为学生提供最合适学习
除了学生学习表现,也有研究者十分关心如何提升的资源的需要,如推荐课程、个性化干预、开发预警系统教师教学效果。如Agaoglu[52]通过一份学生对课程的评等,目前在教育数据挖掘领域主要存在以下两种关于个价问卷得到实验数据集,采用决策树、支持向量机、人工性化学习服务的研究。
神经网络和判别分析四种分类技术预测教师教学效果。(1)基于推荐系统的个性化学习服务
Corcoran等人[53]使用逻辑回归来寻找影响教师教学效当前研究者提出的基于推荐系统的个性化学习服果的因素。Stupans等人[54]使用文本分析软件Leximancer务主要包括基于内容的推荐算法、协同过滤以及混合推对学生的反馈意见进行文本挖掘,其结果有利于教师提荐算法,如Wu等人[39]提出了一种基于模糊树匹配的推高教学质量。
荐方法,为学习者推荐合适的学习活动。Bokde等人[40]4.3学生辍学研究
则开发了一个多标准协同过滤与降维技术相结合的推无论是初中、高中即便是大学都有相当程度的辍学
荐系统为学生推荐适合他们的大学。朱天宇等人[41]提现象发生,研究学生辍学因素,可以提前识别有辍学风出一种面向学生的协同过滤试题推荐方法,该方法可根险的学生并进行及时干预从而降低辍学率。
据学生知识点掌握程度推荐难度合适的试题。
Xing等人[55]将K-最近邻、支持向量机和决策树三(2)基于数据挖掘的个性化学习服务
种分类算法作为基准算法,随后提出一种基于深度学习用于个性化学习服务的数据挖掘方法主要有分类的辍学预测模型与基准算法比较,得到了更高的辍学预算法、聚类算法以及关联规则等,如Dorça[42]等人提出了测精度。Márquez等人[56]基于可解释分类规则挖掘一种基于最小二乘法的自动推荐方法,可根据学生学习(InterpretableClassificationRuleMining,ICRM)提出风格进行自动化推荐学习内容。Natek等人[43]使用决策了一种新的ICRM2算法,该算法按照遗传迭代规则学树算法对学生进行分类,得到了各类学习者的个人信息习方法,使用个体等于规则的表示形式来寻找预测学生特征和教学环节特征,为高校提供了决策建议。Aher[44]成功和辍学的最佳规则。Thammasiri等人[57]使用了3种使用Apriori算法和k-means聚类算法,对各类学生的课
数据平衡技术(过采样、欠采样、合成少数类过采样)以
李宇帆,等:教育数据挖掘研究进展2019,55(14)19
及4种分类方法(逻辑回归、决策树、人工神经网络、支(1)从数据集类型来看,教师案例有1个(约占3%),持向量机)进行组合寻找最佳分类器来预测学生是否小学有2个(约占6%),中学有5个(约占15%),MOOC辍学。
等在线学习平台有9个(约占27%),高校有11个(约占与上述传统教育中的辍学研究不同的是,网络教育34%),其他类型有5个(约占15%)。当前EDM研究以中的高辍课率也吸引了众多研究者的目光。如Yang等人[58]高校与众多在线学习平台为主,究其原因有二:一是各进行了社交网络分析和生存分析来预测MOOC学习者高校智慧校园的建设为EDM研究提供了便利;二是由的辍课情况。王雪宇等人[59]以国防科学技术大学梦课于在线学习平台的独特形式,学习者在基于计算机或网平台的8门MOOC课程数据为基础,训练了人工神经络的教学环境的各类学习行为都能以多种数据形式记网络和线性回归两种预测模型来预测学生是否辍课。录下来[68],减少了研究者收集数据的时间。
Liang等人[60]基于edX平台上39门课程的近40天的用此外,对所选文献中的数据集样本量大小也进行了户行为日志建立支持向量机、逻辑回归、随机森林、梯度统计。其中,数据集样本量小于300的有12个(约占提升决策树四种辍学预测模型模型。
37%),样本量在300~3000的有10个(约占30%),样本4.4学习行为研究
量大于3000的有11个(约占33%)。
研究者通过社交网络分析、聚类、分类等方法对海
(2)从各案例采用的数据挖掘方法来看(如图4所量学习者行为数据进行探索与分析,可深入了解学习者示,某些案例中采用了多种方法),分类与回归是EDM的学习习惯和学习特征,教学者可根据学生学习行为特研究者最常用的两种方法。其中,决策树、关联规则、线点,制定相教学计划或将学生分为学习风格互补的学习性模型等白盒模型由于其高度的可解释性往往被EDM小组来提高学习效率。
研究者采用,但这些白盒模型只有它们具有合理的规模Rabbany等人[61]使用社交网络分析算法对学生在课和复杂性时才有有效的解释性,若线性模型维度过高或程管理系统中论坛的参与情况进行评估,如追踪学生回是决策树太深太宽都会影响模型解释性;而像支持向量复的主题、发布的帖子数量等,从而能使教师迅速了解机、深度学习等黑盒模型虽说难以理解,但通常模型精到学生讨论的热点内容。姜强等人[62]
首先根据Felder-确度较高,并且便于处理图像和文本这类型的数据[69]。Silverman学习风格理论模型筛选出了最能影响学习者推荐系统、可视化、聚类以及知识追踪也比较受EDM研学习风格的几种网络学习行为模式,然后采用贝叶斯网究者喜爱。此外,其他方法(如文本挖掘、隐马尔可夫模络方法来推测学习者学习风格。Morris等人[63]以评价型)则出现频率较低。各算法的优缺点如表2所示。
阅读整体流畅性的指标作为预测变量,选择判别分析来14预测小学一年级学生的阅读流畅度。Ruipérez-Valiente12等人[64]
使用两步聚类对学生在游戏化学习场景中的徽目10数8章系统的表现进行聚类分析,将学生分为学习特别努法算6力、中等努力以及基本不努力三类。Kizilcec等人[65]采4用逻辑回归模型研究MOOC平台上学习者的自主学习2能力和实现个人课程目标的联系。Luna[66]等人提出了0
分类回归聚类习一种优化的进化算法用于挖掘Moodle平台上学生学习可视化过滤其他深度学协同知识追踪行为的关联性,并将该算法与其他5种关联规则算法进图4数据挖掘方法的分布
行了比较。Geigle等人[67]在单层隐马尔可夫模型(HiddenMarkovModel,HMM)的基础上添加了一层HMM形成改进的数据挖掘算法在EDM中发挥了重要作用,可以提高预测的准确性,但目前改进的算法往往模型较TL-HMM对大量学生行为观察序列的无监督学习来发为复杂且时效性较低,还有较大提升空间。总之,EDM现潜在的学生行为模式。
研究者应当根据研究问题来选择或改进数据挖掘算法,最终回归于教育用户所处的实际教育情境进行部署和5EDM研究的分析与评价
检验。
5.1快速发展阶段中文献的分析与比较
对所选33篇文献使用的工具也进行了统计(如图5从第4章筛选出发表于2015年后的文献共计23篇,所示,仅10篇文献列出了所使用的工具,某些文献中采即处于EDM的快速发展阶段;其次,从2015—2018年用了多种工具),从统计结果可以看出,像WEKA这般举办的共4届国际教育数据挖掘会议中筛选出了应用的开源工具最受研究者欢迎,对教育数据挖掘常用工具类文章共计10篇,这33篇文章能基本反映出快速发展感兴趣者可参考文献[70]。
阶段中EDM研究的概况,下面将从两方面对所选文献5.2EDM研究的不足与发展趋势
进行分析与比较:
即便EDM研究已处于快速发展阶段,但其目前还
202019,55(14)ComputerEngineeringandApplications计算机工程与应用
表2
数据挖掘算法优缺点总结
算法
优点
缺点
白盒模型(决策树、关联规则、线性模型等)(1)可解释性高(1)预测能力有限(2)复杂性低(2)难以处理高维数据黑盒模型(支持向量机、深度学习等)
(1)预测准确性高
(1)复杂性高(2)可以处理图片、文本等数据(2)选择参数困难(1)稀疏问题推荐系统(协同过滤)
(1)可以处理复杂的非结构对象(2)推荐个性化程度高(2)可扩展性问题
(3)系统开始时推荐质量较差聚类
(k-means)(1)时空复杂度低(1)无法确定K的个数(2)实现原理简单(2)对离群点敏感知识追踪(贝叶斯知识追踪)
(1)可扩展性强(1)知识点划分不精确(2)鲁棒性强
(2)仅使用纵向数据
可视化(1)提高了用户的易用性
(1)部分数据的采集管理较难(2)打破了传统DM算法的黑盒模式(2)人机界面的设计存在挑战ICRM2[56](1)可适应不平衡数据集
(1)训练时间较长(2)解决了进化算法中的合作和竞争问题(2)并行性低TL-HMM[67]
(1)适用于任何MOOC数据(1)编程实现复杂
(2)可以捕捉学生随时间变化的行为
(2)需要了解状态变化的各种概率
pythonRapidMiner
息,其表示形式错综复杂,为数据预处理带来很大的麻8%9%
烦,所以数据的标准化将是未来EDM社区需要关注的SPSS
重点问题。
17%
(4)研究所用数据集的样本量较小。目前EDM研WEKA究所使用数据集的样本量大小相对于以往已有所上升,33%
如文献[48]对8万人次的数据集进行了研究,但一般的EDM研究所用数据集样本量都在1万以下甚至只有几Rsoftware17%百个样本,显然这还算不上是大数据研究。且仅用少量数据生成的分类器往往泛化能力较差,所以使用样本量LeximancerMatlab
更大的数据集将是未来的发展趋势。
8%
8%其次是研究方法和工具的不足,体现在以下3个方面:图5数据挖掘工具的分布
(1)采用数据挖掘算法的种类过于单一且创新及改存在许多不足:
进较小。当前EDM研究大多采用几种经典的分类或回首先是数据集的不足,体现在以下4个方面:归等算法来处理数据并从中找出表现最优的算法,只有(1)公开数据集的缺乏。目前,大多数EDM文献并较少的EDM研究针对实际应用场景进行了数据挖掘算未将其研究所用数据集公开,究其原因有二:一是数据法的调参或改进。实际上,除了机器学习以外,深度学集中通常包含研究对象的个人信息,基于学术道德与规习也已在图像、语音识别、自然语言处理等领域取得了范不宜公布;二是数据集通常是研究者耗费大量时间、巨大的成功[71],然而它在教育领域的应用还并不广泛。人力等成本获取的宝贵财富。对EDM社区来说,缺乏相信具有高预测精度、无需手工提取特征的深度学习技术未来能在EDM研究中大放光彩。
高质量的公开数据集是制约其发展的瓶颈之一。希望(2)与LA社区交流与合作较少。EDM和LA作为EDM研究者能基于数据脱敏、学术交流等方面的考虑大数据在教育中的主要应用技术,两者应当通过各自的共享数据集。
期刊和会议加强其研究成果的交流,以便促进教育实践(2)EDM很少涉及对教师的研究。这可能是因为和学习科学的发展。同时,两个社区的竞争和合作可以关于教师的数据获取较为困难,往往需要调查问卷等方扩大在教育大数据领域开展工作的研究人员数量,从而式,不像学生数据通常存储于教务管理系统、学习管理通过计算机科学、教育学、心理学、数学等多学科协同来系统等各类系统中,便于直接应用于EDM研究。而教增强EDM和LA的应用和影响[72]。
师作为教育领域中的重要一环,预计未来以教师为研究(3)采用的数据挖掘工具需要一定的领域知识。现对象的文献将会增加。
有的EDM文献所采用的的数据挖掘开源工具如WEKA、(3)尚无统一的数据标准。数据库中存储的海量信
RapidMiner均需要一定的数学或计算机科学领域的知
李宇帆,等:教育数据挖掘研究进展2019,55(14)
21
识,对教育工作者并不友好。因此开发适用于EDM领15991-16005.
域的开源工具是破除这一EDM发展障碍的引擎。
[11]BakhshinateghB,ZaianeOR,ElAtiaS,etal.Educational
dataminingapplicationsandtasks:asurveyofthe6总结与展望
last10years[J].EducationandInformationTechnologies,本文对EDM领域近年来发布的文献进行系统性梳
2018,23(1):537-553.
理后发现:该领域每年发文量逐年上升;研究内容受到[12]葛道凯.E—Learning数据挖掘:模式与应用[J].中国高教
来自计算机科学、教育学等不同学科研究者的关注;研研究,2012(3):8-14.
究方法以分类与回归为主,研究工具使用的则多是[13]WuX,ZhuX,WuG.etal.Dataminingwithbigdata[J].
WEKA这般的开源数据挖掘工具;研究目前还存在数据IEEETransactionsonKnowledgeandDataEngineering,集、研究方法和工具上的不足。
2014,26(1):97-107.
[14]刘凤娟.大数据的教育应用研究综述[J].现代教育技术,
EDM作为一门交叉学科经过20年的发展,其研究2014,24(8):13-19.
已扩展到多个领域和主题,而诸如MOOC、基于游戏的[15]徐鹏,王以宁,刘艳华,等.大数据视角分析学习变革—美
学习系统等新型教学环境的出现也为EDM开辟了新的国《通过教育数据挖掘和学习分析促进教与学》报告解读研究方向和提供了海量的数据,这为EDM领域带来机及启示[J].远程教育杂志,2013(6):11-17.
遇的同时也带来了技术、管理等方面的挑战,而将计算[16]陈池,王宇鹏,李超,等.面向在线教育领域的大数据研究
机科学领域先进技术与教育学、心理学等领域理论知识及应用[J].计算机研究与发展,2014(S1):67-74.
相结合的模型必将会成为未来EDM的研究趋势。
[17]周庆,牟超,杨丹.教育数据挖掘研究进展综述[J].软件学
报,2015,26(11):3026-3042.
参考文献:
[18]杨现氏,王榴卉,唐斯斯.教育大数据的应用模式与政策
[1]HanJ,KamberM.Datamining:conceptsandtechniques[M].
建议[J].电化教育研究,2015(9):54-61.
SanFrancisco:MorganKaufmann,2001.
[19]柴艳妹,雷陈芳.基于数据挖掘技术的在线学习行为研究
[2]BakerRS.Dataminingforeducation[M]//International
综述[J].计算机应用研究,2018(5):1287-1293.
encyclopediaofeducation.3rded.Oxford,UK:Elsevier,[20]于方,刘延申“以用户为中心”.的教育数据挖掘应用研
2010:112-118.
究[J].电化教育研究,2018,39(11):69-77.
[3]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J].
[21]RomeroC,VenturaS,PechenizkiyM,etal.Hand-book
现代教育技术,2010,20(10):21-25.
ofeducationaldatamining[M].[S.l.]:CRCPress,2011.[4]RomeroC,VenturaS.Dataminingineducation[J].Wiley
[22]KotsiantisS,KanellopoulosD,PintelasP.Dataprepro-InterdisciplinaryReviews:DataMiningandKnowledgecessingforsupervisedlearning[J].InternationalJournalDiscovery,2013,3(1):12-27.
ofComputerScience,2006,1(2):111-117.
[5]BakerRS,SiemensG.Educationaldataminingandlearn-[23]ChandrashekarG,SahinF.Asurveyonfeatureselec-inganalytics[M]//Cambridgehandbookofthelearningtionmethods[J].ComputersandElectricalEngineering,sciences.2nded.Cambridge:CambridgeUniversityPress,2014,40(1):16-28.
2014:253-274.
[24]LemaitreG,NogueiraF,AridasCK.Imbalanced-learn:
[6]RomeroC,VenturaS.Educationaldatamining:asurvey
aPythontoolboxtotacklethecurseofimbalanceddata-from1995to2005[J].ExpertSystemswithApplications,setsinmachinelearning[J].JournalofMachineLearn-2007,33(1):135-146.
ingResearch,2017(18):1-5.
[7]BakerRS,YacefK.Thestateofeducationaldatamin-[25]向鸿鑫,杨云.不平衡数据挖掘方法综述[J].计算机工程
ingin2009:areviewandfuturevisions[J].Journalof与应用,2019,55(4):1-16.
EducationalDataMining,2009,1(1):3-17.
[26]RomeroC,VenturaS,GarciaE.Dataminingincourse-[8]USDepartmentofEducation,OfficeofEducationalTech-managementsystems:moodlecasestudyandtutorial[J].nology.Enhancingteachingandlearningthrougheduca-Computers&Education,2005(1):368-384.
tionaldataminingandlearninganalytics[DB/OL].[2012-[27]QuinlanJR.C4.5:programsformachinelearning[M].
10-12].http://www.ed.gov/edblogs/technology/files/2012/03/SanMateo:MorganKaufmannPublishers,1993.edm-la-brief.pdf.
[28]NgAY,JordanMI.Ondiscriminativeversusgenera-[9]Peña-AyalaA.Educationaldatamining:asurveyandadata
tiveclassifiers:acomparisonoflogisticregressionandmining-basedanalysisofrecentworks[J].ExpertSystemsnaiveBayes[C]//AdvancesinNeuralInformationProcess-withApplications,2014,41(4):1432-1462.
ingSystems,2001.
[10]Dutt,A,IsmailMA,HerawanT.Asystematicreview
[29]SuykensJAK,VandewalleJ.Leastsquaressupportvec-oneducationaldatamining[J].IEEEAccess,2017(5):
tormachineclassifiers[J].NeuralProcessingLetters,1999,
222019,55(14)ComputerEngineeringandApplications计算机工程与应用
9(3):293-300.
edge-BasedSystems,2013,51:1-14.
[30]MontgomeryDC,PeckEA,ViningGG.Introduction
[45]CheonSH,ReeveJ.Aclassroom-basedinterventionto
tolinearregressionanalysis[M].NewYork:Wiley,1982.helpteachersdecreasestudents’amotivation[J].Conte-[31]KanungoT,MountDM,NetanyahuNS,etal.Aneffi-mporaryEducationalPsychology,2015(40):99-111.cientk-meansclusteringalgorithm:analysisandimple-[46]LaiCL,HwangGJ.Aself-regulatedflippedclassroom
mentation[J].IEEETransactionsonPatternAnalysisand-approachtoimprovingstudents’learningperformanceinMachineIntelligence,2002,24(7):881-892.
amathematicscourse[J].Computers&Education,2016,[32]BezdekJC,EhrlichR,FullW.FCM:thefuzzyc-mean
100:126-140.
clusteringalgorithm[J].ComputersandGeoscience,1984[47]AsifR,MerceronA,AliSA,etal.Analyzingundergra-(10):191-203.
duatestudents’performanceusingeducationaldatamin-[33]杨珍,耿秀丽.考虑多粒度属性约简的关联规则挖掘研
ing[J].Computers&Education,2017,113:177-194.究[J].计算机工程与应用,2019,55(6):133-139.
[48]蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析
[34]HanJ,PeiJ,YinY.Miningfrequentpatternswithout
与预测[J].计算机研究与发展,2015,52(3):614-628.candidategeneration[C]//Proceedingsofthe2000ACM[49]OkuboF,YamashitaT,ShimadaA,etal.Aneuralnet-SIGMOD
InternationalConferenceonManagementof
workapproachforstudents’performanceprediction[C]//Data.NewYork:ACMPress,2000:1-12.
ACMProceedingsoftheSeventhInternationalLearn-[35]IsinkayeF,FolajimiY,OjokohB.Recommendationsys-ingAnalytics&KnowledgeConference,2017:598-599.tems:principles,methodsandevaluation[J].EgyptianIn-[50]JishanS,RashuR,HaqueN,etal.Improvingaccuracy
formaticsJournal,2015,16(3):261-273.
ofstudents’finalgradepredictionmodelusingoptimal[36]DengX,LiuQ,DengY.Animprovedmethodtocon-equalwidthbinningandsyntheticminorityoversamplingstructbasicprobabilityassignmentbasedontheconfu-technique[J].DecisionAnalytics,2015,2(1):1-25.
sionmatrixforclassificationproblem[J].InformationSci-[51]FernandesE,HolandaM,VictorinoM,etal.Educational
ences,2016(340):250-261.
datamining:predictiveanalysisofacademicperfor-[37]FawcettT.AnintroductiontoROCanalysis[J].Pattern
manceofpublicschoolstudentsinthecapitalofBra-RecognitionLetters,2006,27:861-874.
zil[J].JournalofBusinessResearch,2019,34:335-343.[38]KouG,PengY,WangG.Evaluationofclusteringalgo-[52]AgaogluM.Predictinginstructorperformanceusingdata
rithmsforfinancialriskanalysisusingMCDMmeth-miningtechniquesinhighereducation[J].IEEEAccess,ods[J].InformationSciences,2014,275(11):1-12.2016(4):2379-2387.
[39]WuD,LuJ,ZhangG.Afuzzytreematching-basedper-[53]CorcoranRP,O’FlahertyJ.Factorsthatpredictpre-sonalizede-learningrecommendersystem[J].IEEETrans-serviceteachers’teachingperformance[J].JournalofEdu-actionsonFuzzySystems,2015,23(6):2412-2426.cationforTeaching,2018,44(2):175-193.
[40]BokdeDK,GiraseS,MukhopadhyayD.Anapproach
[54]StupansI,McgurenT,BabeyAM.Studentevaluation
toauniversityrecommendationbymulti-criteriacollabor-ofteaching:astudyexploringstudentratinginstru-ativefilteringanddimensionalityreductiontechniques[C]//mentfree-formtextcomments[J].InnovativeHigherEdu-IEEEInternationalSymposiumonNano-electronicandcation,2016,41(1):33-42.
InformationSystems,Indore,India,2015:231-236.[55]XingW,DuD.DropoutpredictioninMOOCs:using
[41]朱天宇,黄振亚,陈恩红,等.基于认知诊断的个性化试题
deeplearningforpersonalizedintervention[J].Journal推荐方法[J].计算机学报,2017(1):178-193.
ofEducationalComputingResearch,2018.
[42]DorçaFA,AraújoRD,CarvalhoVC,etal.Anauto-[56]Márquez-VeraC,CanoA,RomeroC,etal.Earlydrop-maticanddynamicapproachforpersonalizedrecom-outpredictionusingdatamining:acasestudywithhighmendationoflearningobjectsconsideringstudentslearn-schoolstudents[J].ExpertSystems,2016,33(1):107-124.ingstyles:anexperimentalanalysis[J].Informaticsin[57]ThammasiriD,DelenD,MeesadP,etal.Acriticalassess-Education,2016,15(1):45-62.
mentofimbalancedclassdistributionproblem:the[43]NatekS,ZwillingM.Studentdataminingsolution-caseofpredictingfreshmenstudentattrition[J].Expertknowledgemanagementsystemrelatedtohighereduca-SystemswithApplicationsAnInternationalJournal,2014,tioninstitutions[J].ExpertSystemswithApplications,41(2):321-330.
2014,41(14):6400-6407.
[58]YangD,SinhaT,AdamsonD,etal.“Turnon,tunein,
[44]AherSB,LoboLMRJ.Combinationofmachine
dropout”:anticipatingstudentdropoutsinmassiveopenlearningalgorithmsforrecommendationofcoursesinonlinecourses[C]//NIPSWorkshoponData-DrivenEdu-e-learningsystembasedonhistoricaldata[J].Knowl-
cation,2013.
李宇帆,等:教育数据挖掘研究进展
2019,55(14)23
[59]王雪宇,邹刚,李骁.基于MOOC数据的学习者辍课预测
[66]LunaJM,RomeroC,RomeroJR,etal.Anevolutionary
研究[J].现代教育技术,2017(6):95-101.
algorithmforthediscoveryofrareclassassociation[60]LiangJ,LiC,ZhengL.Machinelearningapplicationin
rulesinlearningmanagementsystems[J].AppliedIntelli-MOOCs:dropoutprediction[C]//InternationalConferencegence,2015,42(3):501-513.
onComputerScience&Education,2016.
[67]GeigleC,ZhaiCX.ModelingMOOCstudentbehavior
[61]RabbanyR,ElatiaS,TakaffoliM,etal.Collaborativelearn-withtwo-layerhiddenMarkovmodels[C]//FourthACMingofstudentsinonlinediscussionforums:asocialConferenceonLearning,2017.
networkanalysisperspective[M].[S.l.]:SpringerInterna-[68]BreslowL,PritchardDE,DeBoerJ,etal.Studyinglearn-tionalPublishing,2014:441-466.
ingintheworldwideclassroom:researchintoedX’s[62]姜强,赵蔚,王朋娇.基于网络学习行为模式挖掘的用户
firstMOOC[J].Research&PracticeinAssessment,2013,学习风格模型建构研究[J].电化教育研究,2012(11):57-63.8:13-25.
[63]MorrisD,PennellAM,PerneyJ,etal.Usingsubjective
[69]RiccardoG,AnnaM,SalvatoreR,etal.Asurveyof
andobjectivemeasurestopredictlevelofreadingflu-methodsforexplainingblackboxmodels[J].ACMCom-encyattheendoffirstgrade[J].ReadingPsychology,putingSurveys,2018,51(5):1-42.
2018,39(3):253-270.
[70]SlaterS,JoksimovicS,KovanovicV,etal.Toolsforedu-[64]Ruipérez-ValienteJA,Muñoz-MerinoPJ,DelgadoC.
cationaldatamining:areview[J].JournalofEducationalDetectingandclusteringstudentsbytheirgamificationandBehavioralStatistics,2017,42(1):85-106.
behaviorwithbadges:acasestudyinengineeringedu-[71]LeCunY,BengioY,HintonG.Deeplearning[J].Nature,
cation[J].InternationalJournalofEngineeringEducation,2015(521):436-444.
2017,33(2):816-830.
[72]SiemensG,BakerR.Learninganalyticsandeducational
[65]KizilcecRF,Pérez-SanagustínM,MaldonadoJJ.Self-datamining:towardscommunicationandcollaboration[C]//regulatedlearningstrategiespredictlearnerbehaviorProceedingsofthe2ndInternationalConferenceonandgoalattainmentinmassiveopenonlinecourses[J].LearningAnalyticsandKnowledge,NewYork,USA,Computers&Education,2017,104:18-33.
2012:252-254.
(上接第7页)
ality[C]//AdvancesinNeuralInformationProcessingSys-[15]LinSJ,ChangC,HsuMF.Multipleextremelearning
tems(NIPS),2013:3111-3119.
machinesforatwo-classimbalancecorporatelifecycle[21]MikolovT,YihW,ZweigG.Linguisticregularitiesin
prediction[J].Knowledge-BasedSystems,2013,39:214-223.continuousspacewordrepresentations[C]//Proceedings[16]SanzJA,BernardoD,HerreraF,etal.Acompactevo-ofthe2013ConferenceoftheNorthAmericanChap-lutionaryinterval-valuedfuzzyrule-basedclassificationteroftheACL,2013:746-751.
systemforthemodelingandpredictionofreal-world[22]D’heygereT,GoethalsPLM,DePauwN.Useofgenetic
financialapplicationswithimbalanceddata[J].IEEETrans-algorithmstoselectinputvariablesindecisiontreemod-actionsonFuzzySystems,2015,23(4):973-990.elsforthepredictionofbenthicmacroinvertebrates[J].[17]GalarM,FernandezA,BarrenecheaE,etal.Areviewon
EcologicalModelling,2003,160(3):291-300.
ensemblesfortheclassimbalanceproblem:bagging-,[23]HallMA.Correlation-basedfeatureselectionfordiscrete
boosting-,andhybrid-basedapproaches[J].IEEETransac-andnumericclassmachinelearning[C]//ProceedingsoftionsonSystems,Man,andCybernetics,2012,42(4):the17thInternationalConferenceonMachineLearning463-484.
(ICML),2000:359-366.
[24]GunesH,PiccardiM.Bi-modalemotionrecognitionfrom
[18]赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算
expressivefaceandbodygestures[J].JournalofNetwork机科学,2018,45(S1):22-27.
andComputerApplications,2007,30(4):1334-1345.[19]EfronB.Bootstrapmethods:anotherlookattheJack-[25]刘枝.依托12358模式构建互联网+监管系统[J].中国价
knife[J].TheAnnalsofStatistics,1979:1-26.
格监管与反垄断,2018(12):26-28.
[20]MikolovT,SutskeverI,ChenK,etal.Distributedrepre-[26]闫欣.综合过采样和欠采样的不平衡数据集的学习研究[D].
sentationsofwordsandphrasesandtheircomposition-
吉林:东北电力大学,2016.
因篇幅问题不能全部显示,请点此查看更多更全内容