。 , ,~ ,一 ~.. !t.1,,ltA 文本挖掘在电商数据分析中的应用模型设计 杨在义 ,张志强 ,杨晋浩z,王伟钧2 (1中国水电顾问集团成都勘测设计研究院有限公司 四川成都610072: 2成都大学信息科学与技术学院四川成都610106) 【摘要】:近年来,电子商务的发展很快,对电子商务的研究是热点问题,但大数据特征的电子商 务文本多维度特征的数据挖掘、中文语义表述等研究和商业应用研究较少。本文以淘宝网交易数据为 研究基础,利用文本数据挖掘技术从数据预处理、领域专业词库的构建以及营销决策支持信息的产生 等几个方面进行了研究,提出并设计了可行的应用模型,通过该模型的实施,能够为电商企业提供相应 的决策支持信息,从而为电子商务的后期研究打下基础。 【关键词】:电子商务;文本挖掘;应用模型;领域专业词库;营销决策支持信息 1.引言 库构建层、数据预处理层等。整个应用模型的架构图 近年来,我国电子商务市场规模不断快速壮大。 如图1所示。 对电子商务的研究也是目前研究的热点问题。近年来 整个模型实现的步骤为: 有学者对淘宝网络中的市场集中度指标进行了分析 (1)数据预处理 和研究【1]。也有学者从理论上分析并提出了决策支持 通过数据抽取、数据转换和加载技术对淘宝网企 系统对电子商务发展的推动机[J[21。有学者分析了电 业营销数据进行初步处理,生成文档数据库。 子商务下的市场营销决策信息的重要性_3j。另外还有 (2)中文分词 学者针对电子商务中的网络商家的信誉度和销售量 根据淘宝网的商业信息特点,设计出一种有效的 的关系进行了分析[41。尽管目前对电子商务和文本信 中文分词技术,完成对淘宝电商数据的分词操作,包 息分析等方面有很多学者在进行研究,但具有大数据 括淘宝新词的发现和识别。 特征的电子商务文本多维度特征的数据挖掘、中文语 l塑堇竺i 义表述以及商业应用研究比较少。本文将通过对淘宝 ▲ 网电商数据的数据收集、数据整合、数据多维度特征 f客户评价信息分f…l盘!)I=描述.关键词,客服交流I- 提取、数据挖掘算法在淘宝网电商中的应用等几个方 。叁 , 、 心 面进行了探索性研究,并创新地提出了文本挖掘在淘 宝网电商数据分析中的应用模型。通过该方案可以完 T 彳 成对电商数据的分析,并最终产生关键的决策支持信 领域专业涮库构建——] [: : 游义特钮:提取 息。对于该模型的使用可以提升企业持久竞争优势等 文档特征逮模 I 方面显现的突出表现和潜力,从而将得到广泛的关注 t 和应用。 l 【fJ堑岔词 l | 2.应用模型设计 }钡通过对电子商务领域淘宝网店企业的营销相关 处理 l’ 文档库 f,‘ LJ 的文档集数据进行文本挖掘,可以为企业的营销方案 I 数据采集 jl—Lj- 实现提供决策支持。为了实现相关功能,提出并设计 }淘宝阐 淘采网腐业务数描 讽蠢数描 — 一 了可行的文本挖掘在淘宝电商营销中的应用模型。该 公开数 非公开数据 t 非公开数 模型包含五层结构:用户层、管理中心层、专业领域词 图1文本挖掘应用模型 基金项目:四川省科技厅应用基础研究项目f14JC0369)。 为通讯作者 2014年第4期I福建电脑 .33. …、 一……… 耦 一建一疑… … 一一一~~ 瀚¨、jlA CO P }F (3)语义特征提取 文本分词表(包括位置特征、词性和词频等属性)。 (4)管理中心 交易的商业信息分析研究发现很多中文分词算法无 据的杂乱和无固定规则特点引起的问题,尤其是客户 评价信息,随意性很大,比如在文本信息中会出现简 提取领域关键词;通过建立语义表述模型,生成 法直接对淘宝电商数据进行分词,这是基于淘宝网数 根据客户营销需求,提交客户评价信息分析、宝 体字和繁体字混杂、文字口语化信息、网络新词信息 贝描述、关键词、客服交流等解决方案。 (5)用户 提出新的需求,并提供相关数据等信息。 3.数据预处理 在整个应用模型中,数据预处理是最基础的工 作。通过设计网络爬虫对公开的网络数据、非公开的 网店业务数据、以及调查数据进行采集、整合、生成文 档库。为了完成对淘宝网电商的数据的采集和整合, 设计了相应的文档库,文档库结构如表1所示。 表1文档库结构 数据裘名 描述内容 sellet 记录淘宝电商企业的化妆晶类目的店铺菸本信息 goods 对淘寰电商企业宝现基本信息进行记录。并使宝贝信息 处于鼓新状态。 Evaluation 记录兴家对该淘宝电商企业每个宝贝的评价信息 tradeHi story 记录淘密电商企业每个宝贝交易的历史情况。 buyer 记录买家信息和评价值 buyerShare 记泶买家对宝!j=l的分享情况。包括分享的总鼙,以及备 类目的分享鬣 buyerEvaluat: o13 记泶买家对购买产, (对各种产品的购强)进行评价的 信息 晶牌商标大全 记泶商品的商标名称信息 淘宝虹通车渊袭 记录商品分类信息和商品关键词傣息 WordGl, 词关联表,记录词与词之问的关联关系 SogouLabDic 渊典袭,收泶了词、词频度和词辎性 向义 诫林 记泶词的棚似度信息 这部分工作可以采用程序自动抓取和导入,然后 结合手工筛选完成。 4.领域专业词库 为了实现淘宝电商领域中的特征信息提取和分 析,首先需要建立领域专业词库。领域专业词库的构 建分为两个部分:首先构建淘宝信息词库,然后构建 具有淘宝领域特征维度的语义识别功能词库。 4.1构建淘宝信息词库 为了从淘宝文档库中提取信息,需要利用中文分 词技术对淘宝文档库进行中文分词。目前有许多学者 对中文分词技术进行了研究,比如有学者研究了中文 分词技术的发展【5];有学者提出了基于字位信息的中 文分词算法[61;还有学者研究了二元语法中文分词数 据的平滑性能【7】;在文献8中赵伟等人提出了一种规 则与统计相结合的汉语分词方法阎。本文通过淘宝网 ・34・ 福建电脑f 2014年第4期 等。如果采用上面单一和现成的分词算法,有时无法 实现有效的分词工作,因此需要设计出一种有效的中 文分词算法,完成文本信息的分词操作。通过将基于 词典、基于统计和基于规则的多种分词技术进行结合 和改进,利用改进的分词技术完成对淘宝电商信息的 分词操作,从而生成淘宝信息词库。本文设计的淘宝 信息词库如表2所示。 表2淘宝信息词库 字段名 字段类型 字段说明 行哮 int 记录分词在数据袭中的行号 袅名 vareha ̄50) 记录分词所在的数据裘名字 嗣名 varehar(5 n1 记录分涮文本信息 旬蛩 jnl 记录分词所在的语句在文字段落中的位爱.以标 点符号为分隔符 分隔符 varehar(5n1 汜泶语句之阐的标点符号 渊位 il't 记录分词在…个语句中的位置 词属性 varehar(501 记录分词的属性信息 新间 ilit 标示是甭新词f0:词典已g ̄,Nid.1:词典未识别 词) 利用设计的中文分词算法,可以完成对文本信息 的中文分词,并建立淘宝分词词库。比如:“麻烦在快 递单上注明,上午送到,下午没人,谢谢”,经过分词, 将得到“麻烦”、“在”、 陕递单”、“上”、“注明”、“上 午”、“送到”、“下午”、“没人”、“谢谢”等分词,中文分 词后的分词词库的结构如表3所示。 表3 中文分词后的分词词库结构 行蟹 袭名 谢名 句号 分黼符 词位 词脯性 新词 l 化妆晶 麻烦 1 J V,ADJ O 1 化妆晶 枉: 1 2 l I 化妆品 快邋单 1 3 N O l 化妆晶 卜 1 4 1 1 化妆赫 注蛆 】 5 V 0 J 化妆品 J 午 2 l N 0 】 化妆品 送到 2 2 O l 化妆品 f 午 3 l N O l 化妆黼 没人 0 2 0 1 化妆 锗 谢谢 4 l V 0 本文完成了对化妆品表、女装词汇表、淘宝直通 车top20w词表等多个基础数据表中的信息进行了分 词,并建立了领域专业词库。 新词,又称为未登录词,在淘宝电商数据中有许 多分词不在词典中,这些词需要通过文本挖掘来发现 和识别,并进一步扩充到词典中。如何提高新词发现 的准确率也是目前文本挖掘的研究问题。对于新词的 。一 。。 ~~ I_J 一 ~ r~ __一 _一 ,…~ 发现目前有学者也提出了一些算法,比如基于统计分 主要设计为:评价项目、评价内容。关联维度的设计从 词词频概率的新词发现『91。对于淘宝新词的识别也是 同义词性质、上下位性质、修辞性质等方面进行划分。 领域专业词库构建的重要部分。很多新词是隐藏在很 5.管理中心 通过文档知识表达理论与方法的研究,实现在领 多杂乱的文本信息中,为此根据淘宝网信息的特点, 设计一种新词发现算法,利用该算法完成了新词的发 域专业词库的基础上,进行语义识别和挖掘,最后生 现,并导入词库表中,从而进一步提高了文本分词的 成应用知识库。然后根据客户营销需求,提交客户评 准确率。新词发现算法首先通过对文本分词处理后获 价信息分析、宝贝描述、关键词、客服交流等解决方 得待选择的新词源数据,在新词源数据中根据分词词 案,将这些解决方案有机地整合在一起,形成管理中 频大小和分词最大匹配方式来筛选新词。获得的部分 心。由此管理中心的功能主要体现在以下几个方面。 新词源数据如表4所示,其中,freq是词频。从表4的 (1)文档商业特征的提取。建立用于语义表述分 新词源数据中可以筛选出:“BB霜”、“喜美绘”、 “EMS”、“韵达”等新词。 表4部分待选择的新词源数据 词名 freq BB l347 B霜 1256 BB霜 l250 然色 1208 牙自 789 喜荚 679 美绘 679 喜美绘 677 光色 521 珠光色 520 牙色 487 EM 462 MS 460 EMS 458 发E 322 快发 280 韵达 277 4.2构建语义识别功能词库 建立淘宝信息词库后,需要进一步完成淘宝领域 语义维度结构的设计,并构建语义识别功能词库。这 部分工作在整个应用模型中非常重要,也是整个模型 的关键部分。对淘宝信息词汇属性划分维度,这些维 度体现在词性分析、语义分析,同义词关联、上下位关 联(词汇、上位词、关联维度等)、修辞关联等方面。词 汇属性划分维度体现在词性维度和关联维度的设计。 词性维度的设计从产品信息、购买行为、评价信息等 方面进行设计。产品信息主要设计为:产品种类、产品 功能、产品材料、风格等;购买行为主要设计为:购买 对象、购买目的;购买流程主要设计为:询价方式,购 货要求,下单,支付,收货,是否评价,退货;评价信息 析的数据库、建立各维度行为特征的数学模型。 (2)根据提取的特征,建立数据挖掘模型,通过数 据挖掘算法,获取文档的语义表述等信息并存储到知 识库中。 (3)营销决策支持信息的生成。以知识库为依据, 进行信息的分析,产生决策信息,比如:客户行为评 价、客户价值评价、客户满意度分析等。 分析客户评价信息是电商数据分析的重要部分, 可以提炼出客户需求满足率,品牌忠诚完整性模式。 淘宝商家大多数经营类目比较单一,本文以商品正常 重复购买时间间隔为标杆,对客户重复购买时间间隔 分布特征进行研究,再结合RFM模型提取客户类别 划分及转换、客户流失、客户购买动因(自用还是代 购)等行为特征。 最后的决策支持信息的产生由“营销策略组合+ 数据分析+信息技术”的模式完成。这里的营销策略包 括了基于客户生命周期的营销、基于提升客户忠诚度 的关系营销、基于细分市场的营销、关联销售与升级 销售等几个方面。 6.结论 本文针对电子商务淘宝电商数据进行文本挖掘 从而为企业的营销提供决策支持。通过利用中文分词 实现淘宝领域专业词库的识别、新词的发现、创新性 地完成淘宝词汇属性维度的划分、面向商业营销的知 识库的构建、淘宝电商营销解决方案的提出等方面设 计了整个应用模型。后期通过该模型的实施,对电子 商务的应用研究和推广打下基础。 参考文献: [1]李松.价值相同产品的电子商务市场集中度成因研究—— 基于淘宝网的数据分析[J]. 现代管理科学,2011,(10): 111—114. [2]朱云捷.电子商务下决策支持系统的应(下转第52页) 2014年第4期I福建电脑 。35 臻一…霹一…魉~~~~. .… ………一一… … 骚2 lJlAN 0O PU 鞋 块中开设了网络安全基础、安全审计与风险分析、操 性、真实性和生产性。我们将上市企业蓝盾股份引进 作系统安全、系统的安装与配置、主要服务器设置、服 校内,在校内建立蓝盾安全实验室,同时建立完整的 务器数据安全等核心课程,使学生掌握信息安全基本 企业管理制度。 理论,具有较强的操作技能,掌握一般的防黑客技术 及防病毒技术,掌握主流操作系统安全机制,能够规 2)校企合作,构建校外实践实习基地平台 通过建设校外实训基地,教师与企业专家合作, 划计算机网络安全平台,具有信息安全分析与实施能 共同开展工作岗位分析,结合计算机网路技术行业高 力,并具备快速跟踪信息安全新技术的理论知识和专 技能人才能力结构和职业标准,确定实践环节教学目 业技能的学习意识和方法。 标,依据岗位工作任务对知识、工作技能的要求遴选 坚持专业教学课程体系必须针对职业岗位,由职 实训内容;按照职业能力培养的基本规律,以职业活 业岗位对人才的知识、能力、素质的具体要求进行倒 动的工作过程为依据,对遴选的教学内容进行整合、 排的方法,建立相应的理论课程体系和实践教学体 序化,将实训内容模块化、项目化;与企业合作开发体 系。图1为课程体系构建图。 现工学结合的实训指导书;以学生为主体,按照“做中 教,做中学”的原则选择实践教学的方法和手段。学生 在第6个学期,都可以到蓝盾股份进行毕业实习,并 有蓝盾股份提供相应的实习工资。 5、结语 高职计算机网络专业基于工程过程的项目化教 学实践教学模式的改革,能够解决学生培养与岗位需 求脱节的问题,通 ‘工作过程化”职业岗位能力的培 养,能够大大提高学生的职业技能和职业素养,从而 l 妊腿器剥g- 墩诵 l I艘 l Iif-:提升学生就业竞争力和创业能力。师生通过共同完成 一I鹏薛器舯槲每个 l 个完整的项目工作而进行的教学活动,是理论知识 图1 和实践技能相结合的工作任务,并贯穿于整个专业课 程的教学过程中,在算机网络技术专业的教学活动中 4、构建校内外实践实训平台 “工作过程”实践教学模式需要真实环境作为平 具有较强的应用价值,较易获得最大的教学效益。台进行技能训练和能力培养,实现的主要途径主要 有: 参考文献: [1]徐涵著,工作过程为导向的职业教育理论与实证研究,商务 印书馆,2013 1)建设具有教学和生产相结合的校内实训基地 在开展教学训练时,受学生数量、训练设备、训练 项目等一些因素影响,无法全方位进入企业环境进行 教学,而建立校内实训基地是最好的满足教学需求、 培养学生技能的平台。实训基地的建设要体现专业 \ .、 \ 五 :; 石\ ; ; ; 石 [2]徐锦生主编,探索综合化教学模式,浙江大学出版社,2012 [3]韩志伟、王文博著,高职教育教学策略,中国轻工业出版社, 2O12 ; 石 ; ; ; I、 石 -、 ; .、 \ (上接第35页) 用分析与研究[I]_信息与电脑,2012,(1o):119—120. [3]刘耀.电子商务的市场营销决策支持系统研究[1].深圳 大学学报(社科版),2002,19(2):43—49. [7]刘丹,方卫国,周泓.二元语法中文分词数据平滑算法性能 研究[I].计算机工程与应用,2009,45(17):33—36 [8]赵伟,戴新字,尹存燕,陈家骏.一种规则与统计相结合的 [4]李松,李凤春.网络购物的信誉和销售量关系研究[I].现 代管理科学,2012,(11):92—94 汉语分词方法[1].计算机应用研究.2004,(3):23—25 l9j Wang Xiaoyan,Xu Kai,Sha Ying,Tan Jian—long,Guo Li. Research of New Words Identi丘cation in Soci ̄Network for [5]孙铁利,刘延吉.中文分词技术的研究现状与困难[『].信 息技术,2009,(7):187—189,192. Monitoring Public Opinion[J].ISCTCS2012,CCIS 320,Springer, 2013:598-603 [6]张金柱,张东,王惠临.基于字位信息的中文分词方法研究 [1].现代图书情报技术,2008,(5):39—43. ・52・ 福建电脑J 2ol4年第4期