第26卷第4期 2017年7月 湖 南 城 市 学 院 学 报(自然科学版) V_01.26 No.4 Ju1.201 7 Journal of Hunan City University(Natural Science) 决策树和贝叶斯分类算法在学生专业录取数据中的 应用研究 黄雪华 (湖南城市学院信息与电子— 程学院,湖南摘益阳413000) 要:分类算法是数据挖掘中最重要的挖掘理论之一,广泛应用于天气预测、反垃圾邮件、疾病诊断 等应用中.通过介绍应用最广泛的两类分类算法决策树和贝叶斯理论及算法,并应用于湖南城市学院专业招 生录取数据中,结合SQL server ̄ASP.NET,获取每个专业的学生性别预测,获取每个专业生源省份预测,并 对预测结果和实际结果进行比较,得到误差率分别在0.01和0.2;A内. 关键词:分类;决策树;朴素贝叶斯;ASENET;SQLServer2014;专业录取 中图分类号:TP301.6 文献标识码:A doi:10.3969/j.issn.1672.7304.2017.04.0014 文章编号:1672—7304(2017)04—0064-04 Application of Decision Tree and Bayes Classification Algorithm in Student Enrollment Data HUANG Xuehua (School ofInformation and Electronic Engineer,Hunan City University,Yiyang,Hunan 413000,China) Abstract:Classification algorithm is one of the most important miIling theories in data mining.It is widely used in weather forecasting,anti sparn,disease diagnosis and other applications.The theory and algorithm of the most widely used decision tree and Bayes are introduced,and applied to student enrollment dta of aHunan City University combining with SQL server and ASRNET to get gender prediction for each major and predict the province students are from.Compare the predicted results with the actual results,it is found that the error rates are within 0.0 1 and 0.2 respectively. Key words:classiifcation;decision rtee;naive Bayes;ASENET;SQL Server2014;student enrollment 分类算法是预测离散数据的分类标号.最著 名的例子如韩家炜的AllElectronics ̄B寄清单数据 库 J,根据顾客姓名、年龄、收入、职业和信誉 度,可对他们是否购买计算机建立分类模型,并 预测未知顾客所属分类;再如银行中预测贷款是 否存在风险,客户信用卡等级划分,这样可以降 低银行信贷的风险,减少资金的流失;又如文本 分类、网络异常检测、垃圾短信过滤等应用. 点根据数据样本的某个合适的属性值进行数据集 划分. 1.2决策树构造步骤 决策树的构造分为2个步骤:第1步是建立 决策树阶段,通过样本数据建立决策树;第2步 是树剪枝阶段,对决策树减去不必要的分枝以及 过度拟合,主要是处理噪声数据和异常数据. 1.3决策树算法分析 决策树算法有很多种,最为著名的有ID3Ⅲ, C4.5121.1 决策树相关理论及算法分析 1.1决策树定义 决策树建立的差异主要在属性值的选取 上.ID3的分支节点属性选择是通过计算属性的 信息增益值来选择的.C4.5算法是对ID3算法的 改进.ID3算法只能针对离散数据进行样本分类, C4.5扩充了连续数据的分类方法. 设 个数据样本的集合,假定类标号属性 具有m个不同值,定义m个不同类Ci(/-=1,…, ), 从数据结构来看,决策树是一颗倒立的树. 从树的根节点到叶节点的路径实际就是决策的过 程,确定数据样本所属类标号的过程,它是一个 递归地从上到下确定分支节点和叶节点的过程. 叶节点存放的是数据样本所属的类标号;分支节 收稿日期:2017-06—25 作者简介:黄雪华(1983.),女,湖南郴州人,讲师,硕士,主要从事数据库、数据挖掘研究.E—mail:107531852@qq.corn 第26卷 黄雪华:决策树和贝叶斯分类算法在学生专业录取数据中的应用研究 , ,…, 65 又设. 是类CI中的样本数,样本分类期望信息为 (S,s2…., )=一 Pg log:( ). (1) 是数据集D的m个分类, fjcl, Xz,…, }是一个具体的样本对象,这个样本对 象属于类Cj的概率可以利用贝叶斯公式(见式(4)) 计算出来. = . Pj是任意样本属于类cj的概率,用s,/s4 ̄i计. 设属性A具有价不同值{口1,…, },属性A将样 本贼 分为价子集{ ,…, }, 是子集 中类 G的样本数.根据A划分子集的熵由式(2)和式(3) 给出. E(A): j=l (4) 当 Cj 大于P(C 时,认为该样本对象属 于类Cf,因此需要求出最大的尸(cj 值,而对于 ( ,..., ),logz( ). (2) f3) 所有分类,样本翮勺概率尸Cljf)可以视为常数.因此 只需P(X]Ci)P(Ci)最大,如果类的先验概率未知, 则通常假定尸(c1)=P(C2):…= ),否则按 P(G)= 计算,其中. 是属于类Cj中的训练样本 数, 训练样本总数,且假定各屙I生之间是相互 ( , ,….,Smj)=一 然后计算每个属性的信息增益,在属性A上 的信息增益为Gain(A) ,…, )一 A),以 具有最高信息增益值的屙l生作为划分属性,并为 每个值创建分支且迭代划分样本. 条件的,则可得 P(XI )=¨尸( Ic ). 值,则样本煸于该类. f5) 2贝叶斯定义及算法理论 2.1贝叶斯定义 对于每个类G,只需求出最大的p(xlc,)p(c,) 贝叶斯分类方法是另外一种著名的分类算法, 3 算法应用 3.1 学生专业录取数据说明 它主要是根据后验概率来预测数据所属的最有可 能的分类. 2.2朴素贝叶斯概念 我校的招生录取数据,共15 734条数据,原 始数据分散在4张EXCEL表中,包含2013年、2014 年、2015年、2016年的新生录取情况,由考生号 贝叶斯分类算法有多种,其中比较著名的是 朴素贝叶斯分类,它假定每个属性值对分类的影 响是相互的. 2.3贝叶斯算法 ksh、学生姓名xm、性别Xb、录取专业lqzy、高考 分数grade、投档线pass ragde ̄省份sf构成.部分 录取原始数据样本见表1. 假设A ,A2,…, 是数据集D的 个属性, 表1 学生专业录取原始数据 对这1 5 000多条数据进行处理,把4张EXCEL 表导fl ̄IJSQL Server中的表kaoshengdata中,并增 加id字段,增加录取年份start year属性字段,增加 3.2决策树算法应用 在学校里,男女性别人数差异的问题可能会 造成很多其他的问题,如宿舍分配、洗澡堂、卫 考生分数与投档线分数差difer score字段.通过 T-SQL编程,编写触发器等方法对数据进行处理, 处理之后的部分源数据见表2. 生间等号I生别相关的公共设施都将产生影响.采 用决策树算法对每个专业学生性别的情况进行预 测,学生的性别取值只有男和女两个值.因此可 66 湖南城fff学院学报(自然科学版) 2017 ̄r第4期 行做0和1的分类问题.在该考生的录取数据rt , ‘ 学生的性别相关的属性主要是专业,专业本身 的厨 将会对学生所属学科及兴趣爱好有一定影 响, 学生的分数、学生的考生号、投档线、考 , 所来自的省份都与性别无关联.因此对陔数据 缱Lj/ 决策树模型.根据样本集建立分类模型,再 埘测试数据进行预测其所属的性别标号. 在ASRNET所编写的客户端应用程序巾,根 据所选择的专业,可以分析 该学生可能的性别 搜卡甘应的概率.图l挖掘结果 示我校经济统汁 业的学生大部分足女生,足女生的概率为 67.9%.对该预测结果进行验证,经济统计学专 、J 录取的女生有30人,而该 业的总人数为50人, 生占比为34/50(0.68),预测值与实际值相差约 为0.0l;同样地对城乡规划专业进行预测,为女 ,f伯,J概率为51.2%,该专业总人数为281人,女生 为144人,占比为51.2%,可 采用决策树预测算 法埘性别的预测准确率非常高. 口 × o E !ocalhest: 、p c 乇 墅曩 四惠车商城日镭,葶委 ・_、马靛活 嗡9包由:圆百度一下a疆芷刮#苛■f蟠帆血 。 歙据挖掘结果 可 的性别女 概章0 679045092838196 图l 决策树数据挖掘结果 该预测涉及列的DMx语句如下: select kaoshengdata.xb,predictprobability(xb) as [probability】from kaoshengdata natural prediction join(select…+profession十…as lqzy)as t 其q ̄profession是要预测考生所属的专业. ASP.NET 的C≠≠语言通过连接字符串 ”Provider=MSOLAR3;Integrated Security=SSPI;Persist Security Info=True;Initial Catalog=kaosheng;Data Source=.”与SSAS建立连 接,并 示出预测结果. 利朋决策树算法预测专业的性别结果数据 表3(f}I于篇幅原 只给}H一部分弩业数据).表3 给}“了每个专业学生性别的预测和实际结果,还 给}}1了预测结果与实际结果的误差率,并得}}J其 误差率在0.0 l以内,预测结果准确率非常高. 表3决策树算法性别预测结果 求收专业 性别预测值 实际结果 误差率 电子科学与技术 72.4l%255/346=73.69%1.28% 英语 女88.8l%414/466=88.84%0.03% 城乡规划 女51.24%144/281 51.24%0% 广告学 女69.23%1 96/283 69.25%0.02% 城市地下空间1_ 粥91.96%196/213=92.01%一0.05% 经济统汁t学 女67.90% 34/50=68% 一0.0l% 汉语吉’文学 女77.36%43 1/557 77.37%0.0l% 水利水电T程 5f3 72.41%100/120=83,33%10.92% 地理信息科学 52.49%105/200 52.5%0.01% 3.3贝叶斯算法应用 预测专业招生学生中最可能来自的省份,据 此可制定相应高校招生策略,增加或减少该々业 法省的招生人数,如果存该专、l 中没有或很少 的学生属于该省,那么可以减少住陔省招生人数, 甭则增加招生人数.根据考生的属性专业、年份、 分数,对考生所来自的省份进行预测.由于各属 性之I' ̄1x,t类别所属省份的影响足相互的, 此埘考生数据建立朴素贝叶斯分类模型,并对测 试数据进行预测.建立的贝叶斯模型见图2. 图2贝叶斯模型 第26卷 黄雪华:决策树和贝叶斯分类算法在学生专业录取数据中的应用研究 67 根据输入学生专业、求取年份及高考分数预 测该 业录取的学生来自的省份及可能的概率. 利用贝叶斯算法预测每个专业每年所来自的 省份结果数据 表4(冈篇幅原因只给出2016年 部分专业生源数据).表4给 r部分专业学生 所来自省份的预测结果和实际结果,并得出其预 测误差率 0.2以内,具有比较高的准确率. 陔预测涉及到的DMX讲句如下: select kaoshengdata2.sCpredictprobability(sf) as [probability]from kaoshengdata2 natural prediction join(select…+profession+…as lqzy,…+startyear 1 …as startyear,’”+grade 1 …as grade)as t 其中profession为学生的录取专业,变避 startyear1为考生的录取年份,变埘grade1为考生 的岛考成绩,预测结果见冈3.20l6年城乡规划 O j二 肾 t: 8亨镑娃日穰 叠0 J曲墨霸e悔9鉴雷吾皇一 叠簋王孝母寻簟幡啦 奄静鹰圆盖髓毒 数据瑚结果 可蘸来自的崔特瑚南 概妻O、 34721 501 {、Iq 々业的学生,最可能来自的省份为湖南省,其慨 牢为55.3%.而在原始数据巾城乡规划专业在 2 6年总共招收了81人,其巾湖南的学生有54 人;同年电子科学与技术擘业总共招收了74人, 来f{湖南的58人,与预测的84%的电子科学与 ‘ 0慨t 图3 贝叶斯数据挖掘结果 技术 业的学生来自湖南情况市H吻合. 表4贝叶斯算法生源预测结果 4 总结 本文研究 决策树分类和叭叶斯分类的相关 参考文献: [1】HAN J W'KAMBER M,PEI J,等数据挖掘概念与技术[M] 北京:机械I’、{ 版}} ,2O12. 理沦,包括其定义、相关慨念及算法,用SQL [2】程斐斐,王r√ 挖掘应用….做j 铎.决策村算法 Weka平台l 的数据 脯应用,201 5,3l(6):63—65 Server2014为湖南城市学院学生々业录取数据建 立模型并进行挖掘分析,采J『J DMX讲句获取挖 掘结果.为学校专、 招牛制定相 决策提供了数 据史持.通过C≠≠语 并采川ADOMD.NET对挖 掘结果进行访问,最终把预测的结果显爪存网页 【3】张轮,畅义I .刈 ,等.鉴I 朴素『Jj叶斯分类的高速公路交 通事件榆洲fJl 558.563 济犬学学报:rJ然科学版,2014,42(4) :[4]畅雷,曹翠玲 孙建因,等.改进的朴素 叶斯算法在垃圾邮 件过滤中的研究….通信学报,20l7,38(4):140—148 f51吕吴,林君, 晓献.改进朴素哦叶斯分类算法的研究与应崩 ….湖南大 学报:r1然科 版,2012,39(12):56—61. 【} .本文采用决策树分类箅法对所录取的学生进 行性别预测,预测值与实际结_粜的误差率大小在 0.01以内;采用贝叶斯算法对所录取的学生可能 来自的省份进行预测,预测值卜j文际结果的误差 牢大小住0.2以内.两者都具仃较高的7伟确率. (责任编校:龚伦峰)