搜索
您的当前位置:首页正文

“大数据”研究综述

来源:好走旅游网
2014年1月1日 总第269期 研究 “大 数据"研究综述 刘维贵 (铁道警察学院 郑州摘450053) 要 大数据是当下即云计算之后大热的词汇。本文通过介绍大数据的由来、含义与特点,追溯中国学者研究大数据的文献始 末。以文献图表统计的方式阐述大数据研究文献的发表情况与研究现状,并对2013年作为大数据“元年”进行解读。最后,从学界、 商界、政府以及社会个体四个角度展望大数据研究的未来发展趋势。 关键词大数据 文献综述 大趋势 文献标识码A 文章编号131218-6619 中图分类号TP301 Reviews to the Research on“Big Data“ Liu Weigui (Railway Police Co ̄ege Zhengzhou 450053) Abstract Big data is a top hot vocabulary after the cloud computing at the nlonlent In this paper,through the introdue— tion to the origin,meaning and characteristics of big data,to trace the literature of Chinese scholars study on the big data rom the begifnning to the end On big data in the form of literature chart statistical research literature expounded the situ— ation and study nfthe status quo.and as”thefirst year”big datainterpretationin 2013 Finally.thefour prospects out— look from the academic,business,governnlents and social individuals to the future trend of study on big data Keywords Big data Literature review Main trend 人在“云”中绕,数据“雨”来临。人们在为云计算投入 电视、卫星等等来源的数据相结合的时候,更加显得庞大 极大的热情的时候,“云”中开始下起了“大数据”的雨。渴 无比。 望创新的人们又为“大数据”欣喜若狂了。有媒体将2013年 称之为“大数据元年”,宣称“大数据时代”的到来。我们的 研究就从“元年”开始,去追寻“大数据”的历史足迹。 一一2、大数据的含义 大数据是指那些大小已经超出了传统意义上的尺度, 般的软件工具难以捕捉、存储、管理和分析的数据。但 、大数据 1、大数据的由来 是,究竞多大的数据才能称为“大”,并没有普遍适用的定 义。一般认为,大数据的数量级应该是“PB”级(拍字节, 大数据具有量词的含义,代表海量数据或海海量的数 250)的。而麦肯锡全球研究所认为,我们并不需要给“什么 据。大数据之所以产生,正如美国咨询大师托马斯・H・达文 是大”定出一个具体的“尺寸”,因为随着技术的进步,这个  波特所言,是因为今天无处不在的传感器和微处理器,比 尺寸本身还在不断地增长。此外,对于各个不同的领域,如物联网、云计算、移动互联网、车联网、手机、平板电脑、 “大”的定义也是不同的,无需统一。 Pc以及遍布地球各个角落的各种各样的传感器,无一不是 大数据之“大”并不仅仅在于其“容量之大”,而且还在 数据来源或者承载的方式。我们正在迈进普适计算的时 于数据的收集、保存、维护以及共享等等极具挑战性的任 代。其实,所有的机器或电子设备都可以留下数据痕迹,这 务赋予大数据之“大”更多的意义:人类可以分析和使用的 些痕迹记录了它的特征、位置或状态。这些设备和使用它 数据在大量增加,通过这些数据的交换、整合和分析,人类 的人们,通过网络之间交流,又形成了另外一个庞大的数 可以发现新的知识,创造新的价值,带来“大知识”、“大科 据源。当这些数据和来自其他媒体、无线或有线电话、有线 技”、“大利润”和“大发展”。 办公自动化杂志‘27 研究 201 4年1月1日 总第269期 丑■Research 3、大数据的特点 业界人士将大数据的特点概括为4个“V”(Volume, 生 表1“大数据”研究文献数量年份分布表 Velocity,Variety,Veracity),或者说特点有四个层面:第一,数 份 据体量巨大。从TB级(太字节,240)跃升到PB级(拍字节, 250,1PB相当于50%的全美国图书馆藏书量);第二,数据 类型繁多,囊括网络日志、视频、图片、地理位置信息等等; 第三,价值密度低,而商用价值高。大数据多为非结构化和 篇 数 笠 份 半结构化的数据,用于分析时会花费过多时间和金钱,以 视频为例,连续不问断监控过程中,可能有用的数据仅仅 有一两秒;第四,处理速度快。大数据的处理是与云计 算、“分布式”技术的使用紧密相关,适用于秒级定律,一 般要求在秒级时间范围内给出分析结果,时间太长就失去 了价值。最后这一点也是和传统的数据挖掘技术有着本质 的不同。 二、大数据的文献研究综述 1、大数据研究文献的统计 国外有关于“大数据”的认识与研究要早于我国。早在 1980年,著名未来学家阿尔文・托夫勒便在《第三次浪潮》 一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐 章”。时至今日,以美、欧为首的发达国家在“大数据”研究 与应用方面又走在了世界的前列,甲骨文、IBM、微软及沃 尔玛全球物联网络都在追逐大数据创造的商机。反观国 内,“大数据”的研究又从何时起步,相关研究成果有多 少,研究现状又如何?笔者以中国报纸期刊网络出版总库 为基本数据来源做了一次较为详尽的文献研究,研究结果 综述如下。 在笔者之前,韩芳芳、范群、韩青青联合发表了一篇论 文《我国大数据领域研究论文的计量分析》,她们从文献、 作者、关键词三个角度分析了我国大数据领域的相关文 献,得出了相关研究结论:“我国大数据研究基本呈平稳快 速发展状态,逐渐成为当前的研究热点;形成了较为稳定 的核心发文机构,却并未形成核心作者群,研究力量相对 分散且薄弱;研究主题主要以资源的管理与利用、信息服 务、关键技术为重点”。由于该文的研究视角与笔者尚有出 入,因而研究结果也大有不同。 以CNKI(中国知网)的中国报纸期刊网络出版总库为 数据源,检索策略为篇名=“大数据”进行模糊检索,检索日 期为2013年6月14日,共检出文献1789篇。按文献发表 时间统计,时间跨度29年(1985~2013年),按年分布如下 (见表1): ・28‘办公自动化杂志 篇 数 在年份分布中,1981~1984年连续四年中未检索到相 关文献,因此笔者认为关于“大数据”的研究起步于1985 年。从文献数量上看,逐年增加,1997年之后未曾中断研 究,尤以最近三年文献数量最多,有陡增之势。根据中国 知网学术趋势搜索“大数据”,可得到如下趋势(见图1与 图2): 学术关拄度匹lj 1rm f-2轴 ●一●●● ●●● ● ● ●●●卜● 0 tg 7 1 200t 2003 2口口5 2n07 2 ̄09 2rtl1 20’3 图1 “大数据”研究学术关注度 注:学术关注度是指同一个课题或者题目的期刊更新 数 用户关注度是指同一个课题或题目一定时间内被搜索 和浏览的次数 用户关注度‘:l 一J l/, lf ̄O0 _ ● ● 7500 ●● ● ● ● ●:● ◆ ● 0 2012-5 2012-7 2012-9 20t2・11 2013-1 2013-3 2013-5 连: 表示标识点数值高于前后两点,且与前一数值点相比增长辜大于301(. 图2 “大数据”研究用户关注度 2、大数据研究文献的时间溯源 寻找最早涉及现在意义上“大数据”研究的文献。在以 篇名=“大数据”模糊检索中,包含“大数据”一词的文章很 2014年1月1日 总第269期 研究 多,时间跨度又很大,那么今天所说的“大数据”是否与10 第三,从“大数据”现象的参与主体上看,理论研究者是 年前、20年前的含义相同呢?如表1所示,1985年仅有一篇 最早的参与者,以论文、专著等形式讨论大数据问题,尾随 论文《利用磁盘实现大数据量二维快速付里叶变换的方 其后的是商业研究机构,开始掘金“大数据”,最后是媒体 法》谈及到“大数据”,但是我们从题名中可以看到它所言 连篇累牍的炒作与报道,尤其是最近两年,媒体新闻报道 的是“大数据量”,在其关键词中也没有将“大数据”独立提 占了“大数据”总检索量的一半以上。由此可见,“大数据” 出。以当时的社会条件还不可能形成针对于现在意义上的 来势之“凶猛”; “大数据”研究与应用,因此它不是最早关于“大数据”研究 的文献。 第四,从中国对“大数据”的研究与实践上看,2013年 中国政府采取了很多关于“大数据”的实践措施,比如从 在1985年之后的20年间里,像这样的文献站了绝大 大数据的收集上看,5月4日中国社会科学院全国居民调 多数,“大数据”常常以“大数据量”、“大数据流”、“大数据 查网络成立与启动了“2013年中国社会状况综合调查项 群”、“大数据序列”、“超大数据体”、“大数据集”(2002 目”,旨在通过定期、系统地收集中国人与中国社会各个 年)、“大数据对象”(2003年)、“大数据块”(2003年)、“大 方面的数据,总结社会变迁的长期趋势,探讨具有重大理 数据中心”(2004年)、“大数据字段”(2006年)等多种形式 论和现实意义的社会议题,用准确的数据助力我国社会科 出现在在篇名与关键词中,而没有以“大数据”为独立词组 学的研究发展。在“大数据”的商业研究中,中商情报网发 同时出现在篇名与关键词中的文献。在此期间,也偶然在 布了((2013-2017年中国大数据行业发展前景及投资策略分 “篇名”中出现了“大数据”字样,比如2003年、2005年出现 析报告》。 两则新闻报道,其中言及的是中国经济指标,用“大数据” 从以上几个角度来看,2013年的确可称之为大数据 来形容指标之大,另有一篇论文《大数据条件下自适应 “元年”。 Huffman算法潜在问题初探》,篇中出现“大数据”,关键词 中未有出现,正文中也未涉及“大数据”的正面研究,因此 也不是我们要寻找的最早文献。 三、大数据研究的四大趋势 如果说人们经常挂在嘴边的“数字时代”中的“数字”, 仅是形式上二进制0或1的话,那么“大数据”将这种“形 2007年一篇名为《基于Web服务的大数据访问性能优 式”给予了充实的“内容”。正如哈佛大学社会学教授加 化研究》的论文在篇名与关键词中同时出现了“大数据”, 里・金所说:这是一场革命,庞大的数据资源使得各个领域 文中部分涉及“大数据”的研究,但是并不全面,无法从其 开始了量化进程,无论学术界、商界还是政府,所有领域都 研究中看到“大数据”本来的样子。同年,《中国商报》9月 将开始这种进程。笔者展望这一进程有如下几个大趋势: 14日第C04版应用技术栏的一则“沃尔玛建立超大数据中 第一,从学界来说,最先研究大数据的是计算机科学、 心”的报道,从其正文内容上看,正式揭开了“大数据”实践 地质、遥感测绘、理化工程等学科领域,现在的研究趋势已 应用的面纱。 经波及社会科学领域,并逐渐形成了以大数据为中心的数 最近五年,中国才开始关于“大数据”的全方位研究与 据密集型学科,诸如政治学,科学、广告、体育、公共卫生等 实践,不论媒体报道还是理论研究,不论应用研究还是实 大量学科和领域都将在从大数据技术中获益; 践应用,从前文图1和图2中即可看出。 3、大数据“元年” 第二,从商界来说,以前自然资源是经济,产品服务是 经济,技术标准是经济,知识信息是经济,那么现在我们不 有媒体将2013年称之为大数据“元年”,其言不无 得不说“数据也是经济”,数据可能成为未来最大的交易商 遭理。 品。市场经济的灵魂是竞争,信息时代的竞争不是劳动生 第一,从文献研究发表的数量上看,2013年上半年就 产率的竞争,而是知识生产率的竞争。数据,是信息的载 已经达到678篇,接近上一年的总量(见表1); 体、是知识的源泉,当然也就可以创造价值和利润,可以预 第二,从“大数据”的关注度上看,最近十五年的学术 见,基于知识的竞争,将集中表现为基于数据的竞争,这种 关注度到2013年出现一个近乎90度的“陡增”,而用户关 数据竞争,将成为经济发展的必然; 注度在最近一年尤其是2013年元月之后也出现了“陡增”。 (见图1、图2); 第三,从政府治理来说,政府需要大数据治理。如果说 政府的权威曾经有“神”的赠予,有公民选举的“赋予”,那 办公自动化杂志‘29 研究 201 4年1月1日 总第269期 Research 么现在我们不得不说“政府的权威与公信力需要来自数据 改变政府、商业与我们的生活『M]桂林:广西师范大学出版 的保障”。大数据治理将政府管理的“粒度”推进到数据级, 社,2012年7月 帮助政府官员开启循“数”管理的新模式。这是由传统的 [3](美)阿尔文‘托夫勒黄明坚译第三次浪潮[M]北 “大政府”转向“大社会”的集中体现,恰如业界所说“三分 京:中信出版社,2006年1月 技术,七分数据,得数据者得天下”。在未来的中国,也许决 [4]韩芳芳、范群、韩青青我国大数据领域研究论文的 定政府执政能力的不仅是民主、智慧或是权威,而且还需 计量分析[M]图书馆学研究,2013年8期 要强大的“计算能力”; [5]李京基、姜兰、徐碹利用磁盘实现大数据量二维快 第四,从社会个体角度来说,数据对个人生活的影响也 速付里叶变换的方法l Jl物化探计算技术,1985年7月 非常广泛,人们可以用数据对自我进行量化——“自我量化 [6]蒋刚、肖建大数据条件下自适应Hufiinan算法潜 管理”。自我量化是指利用计算机、智能手机以及各种新的 在问题初探l Jl信息与电子工程》,2005年3月 电子便携感应器来记录自己学习、工作、运动、休息、娱乐、 [7]熊小华、王帅、宁爱兵基于Web服务的大数据访问 饮食、心情等等个体行为的情况,就像我们需要对体重、身 性能优化研究l Jl上海第--I业大学学报,2007年12月 高、血压、血糖、心跳等物理指标进行监控一样。自我量化 [8]马竞沃尔玛建立大数据中心[ 中国商报,2007 管理通过数据来记录、研究、分析自己的行为,而更好地了 年9月14日第C04版 解自我、提高自我。人的感觉往往存在盲点,直觉又不可完 [9]中国社科院成立全国居民调查网络同时启动2013 全信任,理性思维时常受到局限,大脑即便有惊人的记忆 年中国社会状况综合调查项目『EB/OL]http,/w~cssn cn/81 力,也未必具有惊人的信息加工能力。很多时候,我们会高 /8100/201305/t20130508 335972 shtlnl(2013—5—08登录) 估自己的理性,低估情绪对我们的影响。认识自己很艰难, [10]中商情报网2013-2017年中国大数据行业发展前 但非常重要。基于数据的记录和分析,可以帮组我们走出 景及投资策略分析报告『EB/OL]详见h ̄p://www askci 错觉、认识真正的自己。 参考文献 coin/reports/201303/15105543194671 shtlnl(2013—6—16登录j [1]孙晓立大数据:让“云”落地成“雨”l Jl中国科技投 作者简介 资,2012年第z2期 刘维贵男,辽宁沈阳人,档案学硕士,研究方向:档案 [2]徐子沛大数据:正在到来的数据革命,以及它如何 学基础理论。 (上接第64页) 真结果得到的带宽还要好,可能由于sMA接口的接八及 设计技术2005 12,PP 22-25 有限大的接地板等原因造成天线的回波损耗特性较仿真 特性差些。 [2]党梅梅无线局域网的技术标准l Jl当代通信 2003,16:19-21 五、结论 2 4GHz频段上当回波损耗s11<一10dB时的带宽为24MHz, [3]顾晓亮,郑恒瑞无线局域网技术标准的比较l Jl中 04,6:68-72 本文设计了一个开槽矩形微带贴片天线,天线在 国数据通信20[4]Jan J Y,Wong K L A Dual—band Circulnrly Polarized uare Micro—s p Antenna[J]Microwave Op1 Tech Lntt, 天线的辐射特性较好,在2 35—2 45 GHz频段内辐射增益 Sq均大于0dBi,而且在中心频率2 4 GHz处达到最大值 2000,24:354—357 6dBi,通过仿真和实际制作测试,可见通过开槽的办法, [5]吴迪,大石桥秀和,獭尾和之等新的双频双极化开 2003, Jl应用科学学报能明显改变贴片天线的性能,而且还能有效的缩小体积, 槽微带天线的设计方法[而且设计的天线在ISM波段驻波比小于2,有一定的实用 价值。 参考文献 21.334-338 作者简介 纪辛然(1985~),男,助教,主要研究方向为电磁场与微  [1]张爱华,张爱平,李燕斌无线局域网技术[Jl邮电 波技术。30‘办公自动化杂志 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top