您好,欢迎来到好走旅游网。
搜索
您的当前位置:首页基于类别特征向量表示的中文文本分类算法

基于类别特征向量表示的中文文本分类算法

来源:好走旅游网
维普资讯 http://www.cqvip.com

第25卷第2期 2008年2月 计算机应用研究 Application Research of Computers Vo1.25 No.2 Feb.2008 基于类别特征向量表示的中文文本分类算法术 何建英,陈蓉,徐淼,刘佳,于中华 (四川大学计算机学院,成都610064) 摘要:采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模 型相比,避免了分词的复杂计算;为提高以bi—gram项表示文本特征的分类算法的准确率,提出了基于类别特征 向量表示的中文文本分类算法。通过实验结果及理论分析,验证了该算法的有效性。 关键词:中文文本分类;向量空间模型;评价函数;特征提取 中图分类号:TP301.6 文献标志码:‘A 文章编号:1001—3695(2008)02—0337—02 Algorithm for Chinese text categorization based on class feature vector representation HE Jian—ying,CHEN Rong,XU Miao,LIU Jia,YU Zhong—hua (College of Computer Science,Sichuan University,Chengdu 610064,China) Abstract:This paper used the approach to Chinese text categorization without word segmentation,expressing text features with bi—gram mode1.Compared with the classiicatifon models with word segmentation,the approach avoided complicated con— putation of word segmentation.To increase the accuracy of the approach,proposed an algorithm based on the class feature vec— tor representation,And analyzed theoretically and veriied experfimentally the eficiency of tfhe algorithm. Key words:Chinese text categorization;vector space model(VSM);evaluation function;feature extraction 随着网络传输技术的迅速发展,互联网上每天流动着海量 的数据信息。如何处理和组织其中大量的文档数据,从中快速 准确地获取所需要的信息,成为一项重要而紧迫的研究课题。 文本自动分类是其中的核心任务之一。 对英文文本分类而言,由于词之问有空格分隔,可以直接 以词为单位生成文本特征,特征抽取比较简单。对于中文文 本,由于单词之间没有明显的分隔符,如何生成文本特征是分 类必须首先解决的问题。目前,生成中文文本特征主要有分词 和不分词两类方法。分词的方法需要对文本进行词干抽取来 表示文本特征,这种方法虽然得到的文本特征语义明确、分类 大降低。 1,2文本预处理及向量表示 首先要对文本进行句子边界识别,通常的方法是以标点符 号作为句子分界的标志;其次是剔除文本中一些常见的功能 词,如“地”“的…‘得”“而且”“虽然”等,此外往往还要剔除数 字、英文符号串等词汇;最后以向量空间模型表示文本。 要将中文文本表示成向量形式,首先要对文本分词,由这些 词作为向量的维来表示文本。为了避免词典分词过程中的复杂 算法,采用bi—ram语法模型直接对文本进行切分,由切分所得 g的二元汉字串构成文本的特征项。下面是bi—ragm切分示例。 例1一家瑞士的参展公司。 利用bi—gram模型切分后得到的二元汉字串有: B--——精确性高,但是分词增加了算法复杂度;不分词的方法通常使 用N—gram项作为文本特征,其显著特点在于算法简单、效率较 高,但分类准确率相对较低。在文献[1]所做的比较实验中, 同等分类条件下,采用词典分词生成文本特征项,分类准确率 达到92.73%,而用bi—gram方法分类准确率仅为88.89%。 二 ±±盟 堕叁星星垒 亘 其中:B和E分别表示句子的开始和结尾。这样,文本在高维 空间被表示。其中空问的每一维都表示文档中的一个单词,即 特征项。特征项权值是指特征项t 代表文档D的能力大小。 这里的计算方法主要运用TF—IDF思想。TF(term frequency)代 表某词在文档中出现的频度;DF(document frequency)代表某 词在多少个文档中出现,出现得越多,越不重要。式(1)是一 种普遍采用的TF—IDF定义方法。 (t,d)= t,d)×log(N/n,+0,01)/ 1 中文文本分类的关键问题 1.1 文本向量表示 目前,文本的表示主要采用向量空间模型(vector space model,VSM)。经典的向量空问模型是Sahon等人于20世纪 60年代末提出的,并成功应用于著名的SMART系统 ,已成 为最简便高效的文本表示模型之一。它将文档D看做由一组 特征项(t。,t ,…,t )和相应的权重(W。,W ,…,W )构成,即用 向量D=(tl,Wl;t2,W2;…;t ,W )表示文档D,并且规定t 互 不相同,向量D=(W。,W ,…, )被称为文档D的向量表示。  ̄/∑ ft(t,d)×log(N/n +0,01)] (1) 在基于类别特征词向量的分类算法中,根据分类过程的特 点对式(1)进行了一些修改:用矿(t,c )代表某词在类别中出 现的频度,采用如式(2)的权值计算式。 weight(t,c )=if(t,c )×log(N/n£+0,01)/ 这样,将分类过程简化为空间向量的运算,使得问题复杂度大 收稿Et期:2006—10—10;修回日期:2007—04—03 基金项目:国家自然科学基金资助项目(60073046);高等学校博士学科点专项科研基 金资助项目(20020610007);四川大学计算机学院青年基金资助项目 作者简介:何建英(1978一),女,重庆人,硕士研究生,主要研究方向为自然语言处理;陈蓉(1959-),女,四川人,工程9 ,主要研究方向为自然语 言处理;徐淼(1982.),男,四川人,硕士研究生,主要研究方向为自然语言处理;刘佳(1982-),女,四川人,硕士研究生,主要研究方向为自然语言处 理;于中华(1967.),男,黑龙江人,副教授,博士,主要研究方向为自然语言处理(yuzhonghua@CS.SCU.edu.cn). 维普资讯 http://www.cqvip.com ..338・  ̄/∑cEc[tf(t, )×log(N/n +0.O1)] 计算机应用研究 (2) 第25卷 中权值为1.0,但是不如“艺术,表演,舞蹈”这些类别权值较高 其中:weight(t,c )为词t在类别c 中的权重;矿(t,c )为词t在 类别c 中的词频;Ⅳ为训练文本的总数;n 为训练文本集中出 现 的文本数;分母为归一化因子。 最终,经过预处理后的文本被表示为以特征项权值表示的 向量形式。 1。3评价函数及特征提取 = , ’q 文本的特征项数量往往是非常庞大的,通常达到上万维。 为此需要进行维数压缩工作,这样做的目的主要有两个:为了 提高程序效率和运行速度;并非所有词汇对文本分类都具有区 分意义。一些通用的、各个类别均普遍存在的词汇对分类的贡 献非常小;在某特定类中出现比重大而在其他类中出现比重小 的词汇对分类的贡献大。为了提高分类精度,对于每一类,应 去除那些表现力不强的词汇,筛选出针对该类的特征项集合。 所以,对于文本分类最重要的问题是特征评价函数的选择。一 般情况下,可以直接采用TF IDF值作为评价函数,通过排序 后提取特征项。这种算法结构简单、复杂度低、耗时少。 1.4分类算法 文本分类本质上是一个映射过程,它将未标明类别的文本 映射到已有的类别中。用数学式表示为f:A—日。其中:A为 待分类的文本集合; 为分类体系中的类别集合。 文本分类的映射规则是系统根据已经掌握的每类若干样 本的数据信息,总结出分类的规律性而建立的,这就是训练过 程;在遇到新文本时,根据总结出的判别规则确定文本相关的 类别,即测试过程。 训练和测试过程是分类算法的核心部分。在训练过程中, 由评价函数从文本特征的全集中抽取一个最优的特征子集,由 特征子集所表示的训练文本构造分类器。在分类过程中,首先 将测试文本用最优特征子集表示,再经分类器分类,得到测试文 本所属类别。目前存在多种基于向量空间模型的训练和测试算 法。常见的有支持向量机算法、K一近邻方法和贝叶斯方法等。 2 基于类别特征词向量的分类算法 2.1 评价函数 理论上讲,按照式(2)计算出特征项在各类别中的权值。 若在某一类别中权值越大,在其他类别中权值越小,则说明该 特征项对该类别越有区分能力。但是,由于采用bi—gram方法 切分文本会产生大量无意义的特征项,如果直接采用TF IDF 值作为评价函数,根据实验观察,这些无意义特征项在整个训 练集中通常仅出现一次。其在某一类别中权值为1.0,在其他 类别中权值为0。然而这些词却并不能很好地代表类别特征。 同时,一些在多个类别中都出现,而在某一类别中权值为 0.75~1.0的特征项,往往能够起到很好的类别区分作用,如 表1所示。 表1特征项权值分布实例 特妊项艺术类权值 IT类权值 政治类权值 经济类权值 体育类权值 艺术0.999 964 729 0.001 639 286 0 000 8I9 643 0 0.008I96 432 0 表演0.975 692 223 0.006 592 515 0.026 370 060 0.052 740 120 0.210 960 481 0 舞蹈 蹈团 团翩 翩跹 表1为选取的部分在艺术类中权值较高的特征项。分析 表1可以得出,“蹈团,团翩,翩跹”这些特征项虽然在艺术类 将这种类别向量称为类别特征词向量;特征词以相应权值表示 训练过程 测试过程 图l中文文本分类模型不意图 1)训练过程 对已标注类别文本进行训练,提取类别 向量。 a)提取bl gram项和文本向量化。对文本进行边界识别和 功能词剔除后,采用bi—gram切分文本,得到所有二元汉字串作 为文本特征项,以特征向量形式表示文档。 b)提取类别特征词。计算特征项在各类别中的权值,按 照评价函数排序后提取前n维得到各类别特征词向量。 c)构造类别特征词权向量。以特征词相应权值为分量替 代特征词作为类别向量表示。 . 2)测试过程输入未标注类别文档,进行类别判别。 a)新文本预处理。与训练阶段相同,提取bi—gram项。 b)文本特征向量表示。将新文本表示成以bi—rgam项为 分量的向量,与训练阶段得到的各类别特征词向量进行比较0 若分量匹配,以类别特征词相应权值替换对应新文本向量分量; 若无匹配,以0替换。构成新文本向量后,如维数大于n,按权值 排序后取前n维;若维数小于n,设分量为0.001补足n维。 c)分类结果输出。计算新文本特征向量与各类别向量间 的相似度,将新文本分类到相似度值最大的类别中。相似度计 算采用向量夹角余弦计算式 。 3 实验结果及分析 为验证本文提出的分类算法的有效性,选用复旦大学提供 的语料中的1 860篇中文文本共6个类别作为实验数据。其中 1 457篇已知类别文本作为训练数据,对403篇未分类文本进 行了算法测试,编程环境是Java 2。进行分类前,对文本进行 了预处理,包括句子边界的识别、去除功能词等。表2给出了 实验具体情况的语料数据;表3给出了算法的分类实验 结果。 (下转第344页) 维普资讯 http://www.cqvip.com

・344・ 中删除向量Vo 计算机应用研究 第25卷 中删除 同时从 ,很多。由于挖掘算法的大部分时间消耗在数据库扫描上, apfiofi算法中对每一个候选项都要扫描一次数据库,时间开销 e)delete(V“ )。V ‘对后续频繁项集的计算已无贡献。 为了节约存储空间,故将 2.2.4 产生告警关联规则 ‘从内存中删除。 大;本算法只需扫描数据库一次,将得到的压缩矩阵装人内存 中,大部分运算都在内存中进行,使//0时问降为最低,并通过 保存中间运算结果以及运用布尔运算的性质,有效提高了算法 的时间效率,同时采用压缩技术有效节约了存储空间O _.由挖掘算法生成的频繁项集通过置信度产生告警关联规 则 。 、y是两个频繁项集(非空),且XcY,给定最小置信 度为MinConf。如果Sup(Y)/Sup( )≥MinConf成立,则产生 枷 规则 jy~ ,即在告警项目集 发生的条件下,时间窗口内 告警项目集y— 以Sup(Y)/Sup( )的概率出现。 4结束语 一m 本文针对电信网告警信息量大、告警具有突发性等特点, 提出了一种高效的基于压缩矩阵运算挖掘关联规则的算法。 3 算法性能测试及讨论 其核心思想是将对告警数据库的挖掘转换为对压缩告警关联 本文用Vc++6.0,在内存为512 MB,CPU为赛扬D 2.26 矩阵的挖掘。实验表明,本文算法的挖掘效率与apr一ior GH z,操作系统为Windows XP的计算机上实现了apriori算法 和本文算法(CMatrix)。实验中分别采用500~8 000条告警信 堕姗一i算法相 比有很大的提高,对电信网海量告警相关性分析,快速、 准确地 定位告警故障根源有重要的意义。 息经过预处理后构成的告警事务数据库来测试算法的性能。 参考文献: 两种算法运行时的参数均设定为:滑动窗口为6 rain,窗口的滑 堕 [1]AGRAWAL R,SRIKANT R.Fast algorithm for mining association 动步长为2 rain,最小支持度为2%,最小置信度为80%。两种 rules[R].San Jose:IBM Almaden Research Center,1994. 算法的性能曲线如图1所示。 [2]昊扬扬,陈怀南.基于关联规则的通信网络告警相关性分析模型 1 [J].通讯和计算机,2004,1(1):57—63. 1 [3]HATONEN K,KLEMETI?INEN M,MANNILA H,et a1.TASA:tele— ∞1 垦1 communication alarm sequence analyzer or how to enjoy faults in your 留 network[C]//Proc of IEEE Network Operations and Management Symposium.Kyoto:【S.n.],1996:520—529. [4]刘康平,李增智.网络告警序列中的频繁情景规则挖掘算法[J]. 小型微型计算机系统,2003,24(5):891—894. 0 2 0004 000 6 000 8 000 [5]毛广莉,黄梓龙.电信网告警数据库中的数据挖掘[J].计算机应 .告警记录/条 用研究,2000,17(8):98—99. 图1算法运行时间比较 [6]HAN Jia—wei,KAMBER M.数据挖掘概念与技术[M].范明,孟小 从图l中可以看出,本文算法比apnoH算法的执行效率高 峰,等译.北京:机械工业出版社,2005:272—278. (上接第338页) 需要分词程序进行中文分词,降低了算法复杂度,提高了分类 表2 中文文本分类实验语料 速度。但是采用bi—gram项表示特征的文本分类,往往效果并 文本 文本总数 不理想,为此本文提出一种基于类别特征词向量的分类算法, 训练文本 1 457 测试文本403 在未对文本分词的情况下仍然具有较高的准确率。通过在现 从表3可以看出,尽管本文使用的是以bi—gram项作为文 实语料上进行对比实验以及理论分析,验证了该算法的可行性 本特征,并没有采用精确更高的分词算法,但是在分类效果上 和有效性。 仍然取得了较高的准确率。图2给出了在特征向量维数 取 参考文献: 值不同时,对分类准确率的影响,并与以TF IDF值直接排序 [1]李荣陆,王建会,陈晓云,等.使用最大熵模型进行中文文本分类 提取特征项的分类算法结果进行了对比。 [J].计算机研究与发展,2005,42(1):94.101. [2]SALTON G,McGILL M J.Introdocution to modelTl information re- 表3算法实验结果(n=l 000) 100 母95 trieval[M].New York:McGraw-Hill,1983. 90 [3]庞建锋, 东坡,白硕.基于向量空间模型的文本自动分类系统的 器85 研究与实现[J].计算机应用研究,2001,18(9):23—26. 80 [4]YANG Yi—ming.An evaluation of statistical approaches to text catego— 75 irzation[J].Journal of Information Retrieval,1999,1(1/2):67— 88. 网2分类准确率随特征项维数 变化及算法对比图 [5]LEWIS D D,RINGUETI?E M.A comparison of two learning algo— 图2中,实线代表以本文提出评价函数提取特征项的算法 irthms of text categorization[C]//Proc of the 3rd Annual Symposium on Document Analysis and Information Retireva1.Las Vegas.[S. 实验结果;虚线代表以TF IDF值提取特征项的算法实验结 n.],1994:81.93. 果。从图2中可以看出,按照本文提出的算法得到的实验结果 [6]CAVNAR W B,TRENKLE J M.N—gram.based text categorization 明显优于TF¥IDF算法所得到的结果。 [C]//Proc of the 3rd Annual Symposium on Document Analysis and Information Retireval Las Vegas:[S.n.],1994:161.176. 4结束语 [7]MANNING C D,SCHI ̄TZE H.Foundations of statistical natural lan. guage processing[M].中文简体版.北京:电子工业出版社.2002: 355—375. 传统的中文文本分类算法在对待分类文本向量化时,首先 [8]王映,常毅,谭建龙,等.基于N元汉字串模型的文本表示和实时 要对文本进行中文分词。本文采用以bi—gram项表示特征,不 分类的研究与实现[J].计算机工程与应用,2005,41(5):88.91. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- haog.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务