销量预测分析研究荣飞琼,郭梦飞(兰州财经大学信息工程学院.甘肃兰州730020)[摘要]研究针对在线产品销售的决策需求,结合各行业在线产品的销量影响因素及深度学习算法优势,构建了
适用于在线产品的钠量预测模型,并重点评估了模型在不同种类在线产品上的适应性。研究过程将全连接模型与CNN
的训练结果进行了对比,证明了 CNN模型的精度和泛化能力。通过选取非深度学习模型Adaboosting作为对比基线,
证明CNN模型在不同类别产品下的性能优势。另外,实验得出经过无监督预训练的CNN模型在销量预测问题上更有 效、适应能力更强的结论。[关键词]深度学习;销量预测;CNN模型;全连接模型;无监督预训练[中图分类号]F49
[文献标识码]A [文章编号]1001-514()(2019)()2-()()15-12在激烈的市场竞争环境中,准确的产品销量预测对于企业决策者做出合理决策有着重要的意义。
近年来电子商务的发展规模和潜力有目共睹,如何针对网络产品销售进行有效、准确的市场销量预测是 电子商务发展的一个重要课题。一、文献回顾与评述目前,关于产品销量预测的研究成果比较丰富,采用的研究方法各不相同。毕建涛,魏红芹利用主 成分分析方法和粒子群优化算法对BP神经网络从样本质量和初始权值两个方面进行了改进⑴;蒋兴
恒和朱素蓉采用改进BP神经网络Levenberg-Marquardt算法,建立了卷烟销量神经网络预测模型匕。
采用时间序列预测方法的研究成果也比较常见,如洪鹏和余世明基于时间序列分析,采用RBF神经网
络对产品销量进行预测,并对预测模型进行了优化⑷;王建伟根据产品销售共性提取出产品聚类簇.从 而建立了基于销售数据的产品重分类时间序列销量预测模型⑷。也有学者采用了支持向量机预测法, 如武牧、林慧苹等以具体烟草企业的卷烟销量为研究对象.提出了基于支持向量机的卷烟销量预测混合 方法SHPM®。以上文献的研究方法各有优势,但也存在不少弊端:第一,在线产品数据样本往往具有
多样化特征,而大部分模型不具备多样化数据处理能力;第二,随着在线产品销售规模越来越大.由此产 生的海量销售数据既是销量预测的基本依据,但同时也反映出传统预测方法在处理大规模数据方面能 力不足的缺陷。其中毕建涛、蒋兴恒的两篇文献采用的是浅层神经网络,在大数据处理方面具有优势.[收稿日期]2018-11-27[基金项目]甘肃省软科学项目“甘肃省电子商务信用管理研究 -构建基于大数据的甘肃网络供应商信用评估体 系”(项目编号:17CX1ZAO24)[作者简介]荣飞琼,女,副教授•主要从事电子商务应用研究;郭梦飞,男•硕士研究生,主要从事人工智能及大数据 分析研究。15但是预测精度有待提高。刘晶、和述群及朱清香等在充分考虑涉农电商销售数据特点的基础上,建立了基于深度学习算法的 皇冠模型(ICM).并运用此模型实现了线上农产品销量的分类预测冏。深度学习算法在在线产品销量 预测方面有其独到的优势。首先,深度学习是在BP神经网络的基础上改进了训练算法,梯度消失问题 得到有效解决,使训练的有效时间更长。其次,在线产品销量预测需要高泛化性的模型支撑,具备高复
杂度容量(capacity)的深度学习模型在大数据环境下具有较好泛化性。第三,相比一般模型,深度学习 能在海量数据中提取到更多、更有效的信息。最后,深度学习具备逐层构建的特征,能在现有数据中提
取到更高层次的特征,并将相互作用的影响因子分解成相互独立的且更为有效的因子,提高了模型预测 精度。基于以上优势,本文旨在建立一套较为完善的在线产品销量影响因素指标体系,并运用深度学习
算法构建全类在线产品销量预测模型。由于基于深度学习算法的在线产品销量预测模型通常会进行产 品分类,根据某一类产品的特征进行模型设计。这样的模型适应性差.一旦产品类型发生变化,就必须
对影响因素指标和模型进行重新设计。因此.本文除了对模型预测精度及泛化能力进行评估以外,还要 重点评估模型的适应能力。二、深度学习的理论优势卷积神经网络是深度学习中的一种有效结构。深度学习是一种包含多个隐含层感知器的深度学习
结构,它非常善于提取和计算具有复杂结构对象或问题的特征值,寻找潜在的复杂规则而无需破坏对象
或问题的有用结构信息。考虑到神经网络浅层结构函数表示能力方面的局限性.深度网络多层非线性 映射的深层结构,不仅可以实现复杂函数的有效逼近.也可以通过逐层学习算法获取输入数据的主要驱
动变量。这些都是深度学习理论优势的体现。(—)分布式表示分布式表示是机器学习和神经网络研究中的一个基础性概念。它的出现对于解决“维度灾难”和局 部泛化性的缺陷有很大帮助,它也是深度学习理论比传统机器学习算法具有优势的一个重要原因。分 布式表示是一种紧凑的编码方式,这对于机器学习意义重大。它不仅可以降低运算量,而且能有效使用 样本数据.从而起到避免过度拟合现象发生的作用。图1分布式表示区域划分此外,对于同样的模型结构,分布式表示的紧凑程度与其他局部表示方法呈指数倍关系。图1说明 的是单一决策树可以对输入空间进行线性划分,而划分出的区域(后称之为子区域)的数量等于参数的 个数.也就是决策树叶子的数量;而多个树组合(即随机森林)能够划分的区域的数量与“树”的数量是指
16数倍关系,即为随机森林中参数总数的指数倍。那么,每一个子区域都对应于随机森林中任意树的任意 一片叶子。由此可见,以上算法构建的分布式表示,所需参数数目和样本数量明显小于子区域数量,这
也是能够避免数据泛化的主要原因。(二) 深度结构的优势深度结构的学习算法能够对函数进行有效表达,其学习进程能够学习到一些其他算法不能有效学
习的函数。这是深度学习的一大理论优势,也是其他浅层结构,如SVM、随机森林和BP算法等的潜在 局限性。所谓函数的有效表达,是指函数的表述具有紧凑性,即当模型中需要用来学习参数的自由度较低
时,该模型表达是紧凑的。对于样本数量有限且外来先验知识缺乏的情况下•目标函数的紧凑表述会产 生较好的泛化性。更准确的说,一个能被深度为k的结构表达的函数,在k-1深度下所需的计算单元是
呈指数级增长的。这是因为一个学习结构能够负担的计算元素的数量取决于能够用来学习该结构参数
的样本数量。当使用层次较浅的结构来描述函数时,必然会造成泛化性差的结果。这里需要说明的是, 深度结构对于复杂函数的紧凑表示,在三个方面体现出优势:第一,能有效利用样本数据;第二,计算单
元的数目很少;第三,需要的外来先验知识很少\"叫(三) 无监督预训练(Unsupervised Pre-training)现有的深度学习的标准训练模式倾向于将参数置于一个泛化性比较差的参数空间。这种方法在实 验训练过程中经常会用到。基于这种思想,在2006年出现了深度信念网络(DBN)和堆栈式自编码器
(SAE)方法,它们是深度学习训练策略的一个有效突破。DBN和SAE都使用了相似的算法策略,即在
贪婪式逐层无监督预训练之后,对深度结构进行一次基于梯度优化算法的有监督微调。这是由于每一 层的无监督训练都能够学习到输入特征中主要因子的非线性映射关系,而无监督预训练就等于为有监
督训练条件下的深度结构微调设置了一个初始阶段。从本质上来说,无监督预训练是一种不常见的正则形式。它能最小化方差,并引入偏置,从而促使
深度学习进程进入到一个对无监督训练有用的参数空间中。此外•在高度非凸的深度学习结构中,也可
以定义一个特殊的初始化点,这样做能够增强参数约束。这是因为该初始化点能够在成本函数中明确 哪些最小值点(在大量可能的最小值点之外)是可以被接受、允许的⑷。三、数据来源及影响因素评价指标体系构建(一)构建影响因素指标体系由于在线产品交易模式与传统交易模式有很大区别,因此在线产品销量的影响因素相较于线下产 品更为复杂。另外,本文旨在构建一个全类在线产品销量预测模型,所以在影响因素指标选择上就不能
太过突出某类产品的特征,要综合考虑大部分产品的共有特征,以保证模型的可靠性和适应性。因此, 本文从产品属性、商家属性、买家属性、同行业竞争者属性及产品的主要营销渠道五个方面来选择销量
影响因素指标。1. 产品属性产品本身的特征是影响销售量的主要因素•本文最终确定的产品属性指标有如下几个:价格(人)、 好评率(厶)、质量等级(人)、收藏量(人)、累计评论量(厶)。其中,除“质量等级”以外的指标都可以从产
品隶属的淘宝或天猫平台店铺页面上直接获取样本数据,而“质量等级”指标的具体构成方法见表1。2. 商家属性本文通过经营时间(人)、店铺等级(D)、销量(人)、评分(人)这几个属性来描述商家特征。其中“评
分”一个指标就包括了“产品描述相符程度评分”“物流服务水平评分”“综合服务评分”三方面的打分结
果,因此本文用向量来表示该指标的输入值,具体见表商家属性指标的样本数据都直接来源于商家 店铺页面。173. 买家属性由于客户基本信息,如性别、年龄、学历、曾经购买过的产品信息及在线交易金额等等都涉及个人隐
私问题,所以在各大电商平台上均无渠道获取。因此,本文选取买家忠诚度(件>)来反映客户对产品的 满意程度及其个人消费偏好,具体构成方法见表1。4. 同行业竞争者属性本文选取了行业平均质量指数(/.,).产品平均价格(人)两个指标来表示产品行业竞争者的特征属 性,具体构成见表1。表1部分影响因素指标影响因素指标名称 指标获取及构成将价格与好评率的比率通过非线性映射得出“质量等级”的分数.分別为(1,2,3,4).非 线性公式如下,其中x=—I,X100,质量等级(IJl,xW0.932,0.93 道归纳为搜索引擎、社交网络、邮件和信息、电商^^台及传统线下渠道王类,并根据各营销渠道对产品销 量的提升效果分别赋值.以此作为营销渠道(I,)指标的样本数据•具体见表2。表2营销渠道分类取值营销渠道(5)取值搜索引擎4社交网络2邮件和信息1电商平台5传统线下渠道3基于以上影响因素指标,本文所构建的在线产品销量预测模型的的输入特征向量表示为:L =(/| ,?2 ,?3.........,人3),向量维度为 13。(二)数据来源及处理1.数据来源及技术手段阿里巴巴是国内最大的电商平台,其C2C电商平台淘宝(含天猫)所涵盖的产品种类丰富,涉及领18域全面。另外,该平台成立时间较早,各个产品门类的交易数据在国内C2C电商平台中属于相对完整、 全面,并且其交易数据连续性明显。因此,本文以淘宝(含天猫)电商平台为主要对象进行了数据抓取工 作,其中网络爬虫程序用Python编写。由于淘宝平台技术环境复杂,考虑到数据抓取的可行性及稳定 性,数据抓取技术采用Selenium框架。基本思路为:将淘宝产品搜索的关键字作为入口,逐页遍历该关 键字下搜索结果中显示的所有产品。最终以影响因素指标体系为依据进行样本采集,具体爬取步骤见 图2。人栈2获取商品列表3单个商品栈3.1店铺主页瞬5桶至硬盘店铺网址出栈24店臟标商品网址出栈 图2数据爬取及加工流程本文从众多产品领域中选取了农牧、服装、个人消费品、家具、二手车、食品六个领域作为一级分类, 并在每个领域下设计了若干关键字作为二级类别,见表3。需要说明的是,有些产品、关键字可再细分 出多个关键字,文中没有一一考虑。文中采用的划分方法仅供本文研究之用,其他学者可根据实际需要 做相应调整。表3产品分类划分一级分类二级分类农牧产品花牛苹果、山药、党参、当归、百合服装童装、女装、内衣、鞋靴个人消费品洗护、手表、化妆品、珠宝、百货家具家具二手车二手车食品肉、蔬菜、水果、牛奶、食用油2. 数据清洗由于淘宝技术环境非常复杂,抓取的数据重复率较高,而且存在属性有缺失值的情况。因此,需要 对数据进行清洗,此过程分为两个阶段。第一,数据去重阶段。本文将产品标题及所属店铺名称这两个 属性作为识别重复产品的关键字段。数据中只要在这两个属性上出现相同值的样本,则按抓取的时间 先后顺序,仅保留先抓取到的样本。第二.数据缺失值处理阶段。将样本中每个缺失值按照该属性平均 值进行添补,即将每个分类的该指标平均值作为缺失值。3. 数据描述经过数据清洗后,样本数量为13 000个。为了进一步描述数据,本文将影响因素指标绘制成直方 19图。由于每个指标都含有一定数量的极端值,为避免极端值影响数据分布的可视化效果.遂将每个指标 按取值大小排序并去除占总数5%的最大(小)极端值。此处列举部分指标的直方图来说明数据,见图 3。从图3中“销量”指标的数据分布可以看出,大部分产品的销售量并不大,只有很少量产品的销量非 常大.数据呈现长尾型分布。长尾型分布的样本对于模型训练效果会有影响,可以通过增加样本数量量 级,来改善数据分布形态。另外.由于价格影响因素对产品销售量的影响程度较大,所以特别将各个一级分类产品的价格分布 和销量分布绘制成了直方图.如图J所示。从图4可以看出,不同分类下的产品销量大致服从长尾型分 布,产品本身的差异性仅仅导致了量级的不同。且图4中“二手车”分类,价格分布相当极端,而销量却 仍然服从长尾型分布。店野级质逼指敵行业平均价梏25001000080007000200080006000600015005000400010004000300020001000500 -20000 701000500 1000 1500 20000Mt8000-. 8000 •.累计评论・描注相昭度6000-. 6000 -.4000-. 4000 -.200000 L riL500 100015001500 20002000 0 10001000 2000 3000 4000图3指标分布图L L L L OO□DLOOO• >»■■■■ MM*......... «■■■■ laaoaM • MM MM M>» MM M M ■» W IM M «« * IM M*M• IM !«• Ml • MB IM «M wa ・ ICM MW MM « MW MM MM M 01411图4产品分类及销量对比图20四、在线产品销量预测模型(一)模型结构1.全连接网络全连接层作为深度学习中最初始的结构.网络每一层都是稠密层,层与层之间神经元完全连接,其 结构图如图5所示。输岀层输入层图5全连接模型结构在该结构中.隐藏层数量可为任意数量.输入层接收特征向量x,eR\\其中”为向量的维度。在隐 藏层中.将每个神经元的输入向量的线性组合传入激活函数.通过激活函数使网络具备学习非线性关系 的能力.即 x,+ 1 =y(W,X,),其中 X,+ |代表第 1 + 1 层的输入,W, = {W/z=1,2,3“・,m;/=l,2,3,“・, 爪代表第i层所有神经元与第i + 1层所有神经元的连接的权值,激活函数一般采用Relu函数,即/(刃 =rnaxCO 。若要解决的任务为分类任务.则输出层采用softmajc作为激活函数心=总;。其中2 1,2,3,•••,(),如 i代表输出层第i个神经元的输入{,代表了第/个神经元的最终输出,即输入样本属于第/类的概率。最后, 在所有输岀概率中选取概率值最大的类作为最终的分类结果。若要解决的任务为连续值的预测任务(即回归 类任务),则可直接令Y= X,,其中YER'.2.卷积神经网络(CNN)卷积神经网络是受到生物视觉系统启发而创造出来的深度学习结构,在视觉领域有着相当岀色的 性能。卷积神经网络含有输入层、输出层、卷积层和池化层四个不同的层类型,整体结构与全连接层相 似,由多个层堆叠而成。卷积层和池化层可根据具体任务任意组合并放置在隐藏层中以达到最佳的模 型性能。卷积层可共享卷积核的参数,这样大大减少了模型参数量。.池化层能进一步提取有用特征,并 再次减少模型参数。所以,相对于全连接网络,卷积神经网络大大精简了模型参数.使模型训练更容易 进行5「叭另外.去掉池化层后的全卷积网络在视觉领域仍然有较好的表现.甚至在某些图像识别任务中能达 到领先水平,卷积核步长为2的卷积层可充当池化层的角色,故本文决定采用全卷积结构作为卷积 神经网络的主要结构,其卷积的公式如下所示:(广 g)(r) = J /(r)g(Z — T)dr = J — r)g(r)dr(1)21其中/和g代表两个不同的函数•当/代表输入向量时,g即为卷积核,该式子可解释为通过g对 /进行加权平均\"代表时间步。当输入信号为离散信号时•将式中积分符号变成求和符号即可。模型训练(二)1. 模型训练方法鉴于无监督预训练能使深度学习模型产生更好的训练效果,本文引入降噪自编码器(Denoising Autoencoder, DAE)来预训练网络。单层自编码器(Autoencoder ,AE)在输入层与输出层间加入一层具有非线性映射能力的隐藏层, 训练目标是使输入层输入的向量与输出层输出的向量完全相等以实现输入重构,故对于隐藏层有X,= £(X),而对于输出层有Y=/2(X,)o由于隐藏层的神经元个数与输人特征的维数不相等,故AE并不 是简单地做了一个恒等映射。它中间隐藏层能够提取样本的统计特征,获取到输入特征中最有效的影 响因子。当预训练完成以后,会去掉输出层,并按照监督学习的需要加上新的输出层,便可进行正常的 监督学习〔⑷。但是,当隐藏层的神经元数量大于输入特征的维度时.会导致AE产生过完备现象,提取 到很多与特征无关的信息,而DAE可以使隐藏层神经元数取任意值。因此,DAE可以对输入样本进行 腐化,即按照一定概率使输入值的某一个或多个特征值为()厲:。其余做法与AE完全相似。这也是本 文采用DAE方法进行无监督预训练的原因。当模型需要引入多层隐藏层时.每一层隐藏层后面都会加一个输出层,同时会将上一层隐藏层的输 出当作本层的输入,并重构上一层隐藏层的输出向量。基于此,模型可引入任意数量的隐藏层2. 训练步骤本文所构建模型的基本训练步骤如图6所示:图6模型训练流程如图6所示,当模型完成了无监督预训练后,在此模型参数上进行监督训练,即微调(fine-tune),即 可得到最终的分类模型,而当模型不需要无监督预训练时,可直接进人监督训练阶段。另外,在模型评 估阶段,由于本文并非连续值预测.属于分类预测,故采用accuracy指标来评估模型的训练性能。22五、实证研究与结论基于上文提出的在线产品销量预测影响因素指标体系及模型训练算法,本文针对清洗后的13 000 个样本进行了实证研究。同时,为表明模型在不同行业产品销量上的预测精度和适应能力,本文对模型 训练结果进行了深入分析。(一)实证研究1.数据预处理由于选取指标的量纲不一致,容易导致模型训练不稳定,为此,本文对所有指标数据进行了标准化 处理,处理公式如下:其中卅\".代表了第j个指标的第i个值代表了其对应的标准化后的值,了3代表第j个指标 所有样本值的算术平均值,才紹代表了第丿个指标所有样本值的标准差。2.模型结构及训练参数本文选取了深度学习模型中的全连接模型和CNN模型.统一采用提早停止(Early Stop)和学习速 率衰退策略进行训练。其中.提早停止策略可使模型在训练时,当验证集上的损失值连续30次回响 (epochs)下都不再降低时,便停止模型训练。而学习速率衰退策略可以使学习速率在每个epoch后按 某比率降低。在本实验中降低比率为0.000001»学习速率为0.0001。对于全连接模型,它包含三层隐藏层.每层都有512个神经元。每个隐藏层和输入层都设置了失活 策略(dropout),除了输入层的dropout概率设置为().5 ,其余均设置为().3。模型在训练时会使神经元 “失活”,不参与本次训练,从而有效防止过拟合现象。对于CNN模型,采用了全卷积结构。所以,利用步长为2的卷积核来替代原有的池化层效果,且 非池化位置的卷积层步长均为1。由此产生了步长值为1和步长值为2的相互交替的四层卷积隐藏 层,它们的卷积核数量分别为6()、6()、12()和12()。为了防止过拟合,每层隐藏层仍然设有dropout,其设 置规则与全连接模型一致。在模型预训练阶段,对两个深度学习模型结构中的每一层都进行了无监督预训练,并在预训练阶段 对所有层都做了微调(fine-tune),使所有层都可以在监督信号下得到训练。(-)CNN模型和全连接模型训练结果本文对一级分类下的产品样本进行CNN及全连接模型训练,引入了无监督预训练。每个一级分 类产品样本每次实验都可以得到2个模型训练结果,其中每个分类产品分别进行了 5次实验。另外,模 型进行销量分类预测,每隔50()个销售量增加一个等级,也就是说当销售量V = 5()()时.取值为1;位于 5()()〜1()()()之间的销售量,取值为2;位于1000-1 5()()之间的销售量取值为3。以此类推,总共分为11 个等级,当销售量〉5 ()0()时,取最大值11„为简化论述,选取农牧产品分类和个人消费品分类两个行业的训练结果进行重点分析,如图7所 示。其他行业产品的训练结果会在接下来的模型适应性分析部分给出。选取农牧产品和个人消费品作 为分析重点的原因是:这两个行业产品门类复杂.覆盖面广,产品的差异性明显.而且淘宝及天猫平台上 这两个行业产品的商家经营时间长,销售已成规模,因此获取的样本偶然性小,具有代表性;另外,模型 训练结果如果在这两个行业产品上表现出色,那么对模型整体的适应性水平就有一定的说服力。在模型结果分析中,本文引入了精确度(accuracy)指标来说明预测结果的准确程度。精确度在一 级分类产品上的计算公式如下:23_ TCaccuracy =(3)其中TC代表了正确分类的样本数量,TS代表了总样本数量。由图7可以看出,农牧产品及个人 消费品的2个模型,每次实验的训练结果精度都在8()%以上,且均值大于0. 850其中农牧产品的精确 度更是达到了 95%以上,这是一个非常让人满意的结果。这个结果与农牧产品样本丰富,种类多样,且 价格与销量的概率分布相对集中是有关系的。由此可见,在个人消费吕及农牧产品分类上,模型精度均 可接受,且表现出了不错的适应性。另外,本文accuracy指标是在验证集上计算得出的。验证集上模 型表现出良好的准确度.说明模型在未知数据上的性能也有保证,避免了过拟合现象。(三)模型分析与结论通过对每个行业数据单独训练以及对全行业所有数据的训练,得到各个模型在使用预训练和不使 用预训练情况下的精确度评估结果,结果如表4所示。为使评估更具客观性,实验更严格,除了随机抽 样出1()%样本作为验证集,且只用作评估而不参加训练外,还对每个模型重复进行了五次抽样和训练。 最后,将五次实验的精确度均值作为模型评估的依据,具体见表4。为了更好地反映模型精度和泛化能 力,本文还选取了运用相当广泛的非深度学习模型Adaboosting作为对比模型,并选择决策树作为基础 分类器以使Adaboosting模型性能达到最佳。在对样本进行了重复实验后,将结果与深度学习模型结 果进行比较分析,以此考察深度学习CNN和全连接模型的预测效果。表』模型精确度汇总表AdaBoosting个人消费品全连接全连接(预训练)CNN0.877 929CNN(预训练)0.829 1170.890 3350.953 3910.919 6880.616 3840.658 1350.793 3110.861 0350.862 670.923 0770.967 0330.937 2550.681 4480.881 1990.892 3080.970 33二手车0.938 4620.965 9340.943 1370.892 3080.967 5820.953 431农牧产品家具服装0.957 5160.681 4480.726 3510.841 7280.680 5430.722 9730.834 743 0.684 1630.723 649食品全行业0.725 6760.825 1750.835 66224表4分别列举了 AdaBoosting、全连接、CNN模型在6个一级分类产品上的精确度,也就是它们在 不同行业产品上的销量预测精度,其中“全行业”代表的是不同模型精确度的均值。分析表4中accuray 指标,得出以下结果:第一,深度学习模型在各个行业上的性能都优于AdaBoosting模型;第二,全行业 预测精确度均值都达到了 0.75以上,其中深度学习模型(全连接和CNN)的accuracy指标都在().8以 上;第三,无监督预训练的优势在CNN模型上体现的更为明显。由以上分析结果得出结论:第一 ,AdaBoosting模型作为对比模型,反映出本文所构建的全连接和 CNN深度学习模型在不同行业产品销量预测上的优势;第二,在较为完善的指标体系支撑下,全连接和 CNN模型普遍适用于不同行业产品的销量预测,而且在预测精确度上有绝对的优势;第三,在多数预测 中经过预训练的全卷积模型(CNN)比全连接模型更有效,说明经过无监督预训练的全卷积神经网络 (CNN)在销量预测问题上更有效,更能捕获输入值与销量输出值的之间的非线性映射关系。此外,要增加深度学习模型的复杂度并不困难.所以从理论上看,深度学习模型能适应较大的数据 量级,这是很多预测模型所不具备的。在本文实验训练过程中,仅仅使用了一万多个训练样本,在这样 一个相对较小的量级样本下,模型就表现出较佳的性能。那么,在真正的大量级数据上其性能优势会更 加明显。可见.本文所构建指标体系和模型在实际应用中会有更好的表现,适用于不同行业产品销量预 测的实际操作。本文基于深度学习的优势,结合在线交易模式中产品销售特点,构建了在线产品销量影响因素指标 体系,及深度学习模型来进行不同行业在线产品的销量预测。根据选取的影响因素指标,从电商平台淘 宝(含天猫)上抓取了大量样本,采用自动编码器方法(AE)挖掘出不同行业在线产品的深层特征,并构 建CNN模型对产品销量进行了预测。分析结果表明.CNN模型具有很好的预测精度和泛化能力,适 用于不同行业在线产品的销量预测。就样本呈现长尾型分布的问题而言,虽然没有明显影响到模型的训练结果。但在实际应用中,可以 利用企业资源.扩大数据来源;同时调整爬虫算法来避免样本出现类似问题。通过获取更大数量级的样 本,可使处在“长尾”上的产品的销售特征得到有效提炼。这对模型性能的提升有很大帮助,也更符合产 品销量预测的实践要求。另外.在无监督预训练方法上,还可以选择限制玻尔兹曼机(RBM)等其他无 监督预训练算法和降噪自编码器(DAE)进行预训练效果对比,以实现最佳模型训练效果。这也是未来 研究中实现模型进一步优化的潜在突破点。参考文献:[1] 毕建涛,魏红芹.改进的BP神经网络及其在销量预测中的应用[J].山东理工大学学报(自然科学版),2011,25(6): 29-33.[2] 蒋兴恒,朱素蓉.基于Levenberg-Marquardt算法改进BP神经网络的卷烟销量预测模型研究[J].中国烟草学报. 2011,17(5):81-86.[3] 洪鹏.余世明.基于时间序列分析的自动售货机销量预测[J].计算机科学,2015,42(6):122-124.[4] 王建伟.基于商品聚类的电商销量预测[J].计算机系统应用,2016,25(10):162-168.[5] 武牧.林慧苹,李素科,等.一种基于支持向量机的卷烟销量预测方法[J].烟草科技,2016,49(2):87-91.[6] 刘晶,和述群,朱清香.等.基于深度学习的线上农产品销量预测模型研究[J].计算机应用研究,2017,34(8):2291- 2293.[7] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.[8] BENGIO Y. Learning Deep Architectures for AI[J], Foundations & Trends in Machine Learning.2009,2( 1):1-127.[9] ERH AN D, BENGIO Y, COURVILLE A. et al. Why does Unsupervised Pre-training Help Deep Learning? [J]. Journal of Machine Learning Research ,2010,11(3): 625-660.[1()] KRIZHEVSKY A.SUTSKEVER I, HINTON G E. Image Net Classification with Deep Convolutional Neural Net- works[C]//International Conference on Neural Information Processing Systems. Curran Associates Inc,2012: 1097 1105. [11]LI()U C Y, HUANG J C, YANG W C. Modeling Word Perception Using the Elman Network[J]. Neurocomputing, 252008,71(16):3150-3157.[12]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based Learning Applied to Document Recognition[j]. Proceed ings of the IEEE, 1998,86( 11) :2278-2324.口3]SPRINGENBERG J T, DOSOVITSKIY A,BR()X T,et al. Striving for Simplicity: The All Convolutional Net[J]・ Eprint Arxiv,2()14.[14] LI()U C Y,CHENG W C,LI()U J W,et al. Autoencoder for Words[J]. Neurocompjting,2014.139(139) :84-96.[15] VINCENT P, LAROCHELLE H . LAJOIE Let al. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising CriterionCJ]. Journal of Machine Learning Research,201(), 11 (12) :3371 -3408.On Suitability of Online Product SalesPrediction Model Based on Convolutional Neural NetworksRong Feiqiong・ Guo Mengfei(School of Information Engineering, Lanzhou University of Finanee and Economics, Lanzhou,Gansu 730020)[Abstract]Targeting at decision-making requirements of online product sales» by combining the influ ence factors of online product sales and the advantages of deep learning, we construct a sales predic tion model for all online products, and mainly evaluate the suitability of the prediction model on different kinds of online products. By comparing the training results of CNN and full-connection network, we have proved the accuracy and generalization ability of this very model. By selecting non-deep learn ing model Adaboosting as the comparison baseline, we have certified the performance advantage of CNN on different kinds of online products・ Moreover, the results show that the CNN, through unsupervised pre-training, is more effective on predicting the sales of online products and its suitability is greater than other models.[Key words] deep learning; sales prediction; CNN; full-connection network; unsupervised pre-train ing(责任编辑肇英杰 责任校对戴正)26 因篇幅问题不能全部显示,请点此查看更多更全内容