张鹏;陆瑶
【摘 要】公交作为城市交通的重要组成部分,是城市赖以生存的重要基础设施之一.以哈尔滨104路公交车作为研究对象,对104路公交车在高峰时进行集散量的随车调查,运用聚类分析法进行距离计算,绘制出聚类分析图.对公交站点进行分类,然后通过逐步回归法,应用SPSS统计分析软件建立同组各代表站点与其他站点的回归方程式,对104路公交车高峰期的站点客流量进行预测,取得很好的效果. 【期刊名称】《黑龙江工程学院学报(自然科学版)》 【年(卷),期】2014(028)003 【总页数】5页(P27-31)
【关键词】聚类分析法;公共交通;回归分析法;客流量;预测 【作 者】张鹏;陆瑶
【作者单位】黑龙江工程学院汽车与交通工程学院,黑龙江哈尔滨150050;东北林业大学交通学院,黑龙江哈尔滨150040;黑龙江工程学院汽车与交通工程学院,黑龙江哈尔滨150050 【正文语种】中 文 【中图分类】U491
公交客流量实时预测是公共交通实时调度的基础。调度方式主要是基于客流量变化而确定的。在准确提前掌握客流变化规律的情况下,企业才能做到科学地制定运营规划,合理地调配使用人、车资源。但目前实际的运营调度管理中因为缺乏定量适
用的分析预测手段,大多依靠经验和直觉来判断客流的变化,预测的结果同实际往往有较大的区别[1-2]。本文根据哈尔滨市公共交通运行现状,以城市单条公交线路为研究对象,结合调研数据应用聚类分析法和逐步回归法对哈尔滨市104路公交车在客流高峰站点客流量进行预测,公交客流量的准确预测对城市公交的高效经济运行具有重要意义。 1.1 定义
聚类分析(cluster analysis)是对样品或变量进行分类的一种多元统计方法,目的在于将相似的事物归类。通常分类一般限于单个度量,分类标准主要是由主观偏好决定的,但有时样品很多,分类无法可依,很难确定应该选择哪个度量作为分组的依据,这时聚类分析便成为一种选择[3]。
聚类的方法有系统聚类、模糊聚类、图论聚类、聚类预报等多种方法,本文使用的就是应用最广泛的系统聚类,也称谱系聚类。系统聚类的做法是在样本基础上定义点与点的距离,先将每个样本自成一类,每次将距离最小的两类合并,合并后重新计算类与类之间的距离,一直持续到所有样品归为一类,然后将此过程做成聚类谱系图[4]。 1.2 系统聚类步骤 1.2.1 数据变换
在聚类分析处理过程中,为使不同量纲、不同数量级的数据能放在一起进行比较,首先需要对原始数据进行变换处理。变换的方法有总和标准化、标准差的标准化 、极大值标准化、极差的标准化等,本文采用的是标准差标准化处理,通过标准差标准化后每列数据的平均值为0,方差为1,这样在抽样样本改变时,它仍保持相对稳定性,公式为 式中:
1.2.2 相似系数的确定
相似系数的确定即选择样本相似性度量,系统聚类法应用的是用距离作为相似系数。属于同一类的样本之间距离比较近,不同类的则要大很多。距离越小,相似性越大,亲密程度越大。常用的距离公式[5]: 绝对值距离 切比雪夫距离 欧氏距离 明科夫斯基距离
式中:i,j=1,2,…,m;p≥1。当p=1时,它就是绝对值距离;当p=2时,它就是欧氏距离;当p=∞时,它就是切比雪夫距离,本文使用欧氏距离。 1.2.3 计算类间相似系数并进行聚类
将各个样品自成一类基础上计算平方欧几里得距离矩阵,将距离最小的两类合并,再将类个数减1生成新的平方欧几里得矩阵并且继续并类,如果类的数量大于1,则继续并类,直到都归为一类为止。 1.2.4 绘制系统聚类谱系图
利用上述步骤得到的结果生成聚类谱系图,如图1所示[6]。 2.1 定义
逐步回归是按一定的统计程序,经过多步拟合和检验,从一系列的可供建立回归模型的自变量中,逐步引入回归作用显著的自变量,并从回归模型中逐步回归作用不再显著的自变量,以最终求得“最优”回归模型的技术[7]。 2.2 步骤
逐步回归预测具体计算步骤[8-9]:
1)设置引入、剔除变量以及回归方程的F检验的显著性水平a=0.05; 2)设系统聚类分析共得到m组公交站点,令j=1;
3)将第j组内公交站点排序(不妨就按照聚类谱系图从上至下的顺序),令i=1,组
内公交站点总数为Nj(j=1,2,…,m,共聚类成m组); 4)取第i个公交站点作为因变量,其他站点设为自变量;
5)调用逐步回归算法,利用F检验,依次引入或剔除变量,建立多元回归方程;记录第j组第i个回归方程的Fij检验值;
6)设i=i+1,判断是否i>Nj?是则将第j组中Fij值最大的方程的自变量作为本组的代表站点,并转7),否则转4);
7)设j=j+1,判断是否j>m?是则转8),否则转2);
8)将每组中的代表站点作为自变量,建立其与组内其他站点的回归方程。 当代表站点安装有实时客流量采集设备时,根据8)得到的回归方程预测组内其他站点的客流信息,为实时公共交通调度提供重要的基础数据。当然,需要对原始数据库所建立的模型及时更新处理(通常是在每天所有公交车都停止运营后进行次项工作。注意,所更新的模型备下周同一时间使用),以保证模型的实效性。 3.1 交通调查
哈尔滨市104路是从太平桥开往糖业研究所的公交线路,横穿东西大直街,客流量非常大,平均日客流量可以达到2.5万人次,经常处于拥挤状态[10]。本文以哈尔滨市104路公交线路为研究线路,采用随车调查法,于2012年4月在高峰期调查了上行的8辆车站点集散量情况,其中站名用i表示,车次用j表示,xij为第i个站点的第j辆车,见表1。 3.2 聚类分析预测 3.2.1 数据变换
根据式(1)及表1进行标准化数据处理,如 其他数据处理的结果见表2。 3.2.2 计算欧几里得距离并进行聚类
根据式(4),计算平方欧几里得距离矩阵并进行聚类。平方欧几里得距离是欧氏距
离的平方值。 例
其他值不再赘述,以类间相关性尽量高,分类尽量少为分类原则,取平方欧几里得距离8.450将站点进行分类,共分为九类。第一类:太平桥;第二类:南通大街,市客车厂;第三类:哈尔滨工程大学,秋林公司,建设街;第四类:烟厂,新中新集团;第五类:医大一院,和兴三道街,和兴十一道街,哈尔滨医科大学;第六类:省博览中心,通达街,和兴路,九三五厂,哈达屯,糖业研究所;第七类:铁路局,哈尔滨工业大学,西大桥,哈师大附中,哈尔滨理工大学,服装城,电影机厂,机电工程学校;第八类:黑龙江大学;第九类:医大二院。 3.2.3 绘制系统聚类谱系图
结合上述聚类过程,通过SPSS软件绘制出最短距离聚类谱系图2。 3.3 基于逐步回归分析进行客流量预测 3.3.1 回归模型建立
设置回归方程的F检验的显著性水平α=0.05,根据经验可知允许的方差比F在4~15之间,经逐步计算,本文中代表站点为南通大街、烟厂、秋林公司、医科大学、糖业研究所和哈尔滨师大附中。建立代表站点与其他站点之间的客流量预测模型如下
应用SPSS统计分析软件建立同组各代表站点与其他站点的回归方程式(见表3)。根据回归方程,当代表站点安装有实时客流量采集设备时,可以预测组内其他站点的客流。单个站点组成一类的只能利用观测得到其客流信息。 3.3.2 预测效果检验
随机抽取第八组观测的数据进行预测检验:将得到的其他站点的预测值与观测值进行比较。图3即为高峰时段站点预测值与观测值的比较折线图,该预测平均相对误差8.3%,预测效果良好。
本文通过公交站点客流量预测模型的建立,实现客流量预测模型对主要公交线路站点的宏观划分,为规划和决策部门制定合理的运营计划提供理论依据,进而实现公交线网优化,为公交智能调度提供基础,最终缓解交通拥挤、居民出行难等问题,从而加快城市世界性发展的进程。
【相关文献】
[1]王春雨.公交客流数据分析的研究[D].石家庄:河北工业大学,2006.
[2]韩霜南.发展公共交通智能调度系统方案的研究探讨[J].安防科技,2006(11):21-22 [3]许丽莉.聚类分析的算法及应用[D].长春:吉林大学,2010.
[4]刘艳霞.数据挖掘中聚类分析技术的研究与应[J].科技情报开发与经济,2008(6). [5]朱晓兰.模糊聚类在物流园区网络布局规划中的应用[D].上海:上海交通大学,2007. [6]刘炜.聚类分析在高校就业工作中的应用研究[D].哈尔滨:东北林业大学,2011.
[7]方来.基于逐步回归方法对甘肃省投资环境落后的原因分析[D].兰州:兰州商学院,2007. [8]韩雨萍.利用逐步回归分析方法测算高职体育课运动量的研究[J].价值工程,2010(6). [4]高倩倩,邢秀凤,姚传进.基于逐步回归分析的粮食产量影响因素研究[J].当代经济,2010(9). [10]张鹏.公交调度系统的软件设计与实现 [J].黑龙江工程学院学报:自然科学版,2013,27(3):37-43.
因篇幅问题不能全部显示,请点此查看更多更全内容