您好,欢迎来到好走旅游网。
搜索
您的当前位置:首页大数据背景下机器学习研究

大数据背景下机器学习研究

来源:好走旅游网
2019年第24期

信息与电脑China Computer & Communication算法语言

大数据背景下机器学习研究

胡永祥

(江苏财经职业技术学院,江苏 淮安 223003)

摘 要:随着大数据时代的到来,海量数据处理具有复杂性、多样性、高维性等特点,数据挖掘难度大,传统的机器学习算法已无法很好地处理大数据问题,在此背景下机器学习算法研究成为热点。基于此,笔者分析了当前机器学习的关键技术,并运用分治算法、聚类算法、并行计算等技术让数据变得更有条理性,有效降低了数据处理分析的难度,大大提高了机器学习的能力。

关键词:大数据;机器学习;算法

中图分类号:TP181  文献标识码:A  文章编号:1003-9767(2019)24-015-02

Research of Machine Learning in Big Data

Hu Yongxiang

Abstract: With the advent of the era of big data, massive data processing has the characteristics of complexity, diversity, high-(Jiangsu Vocational College of Finance and Economics, Huai'an Jiangsu 223003, China)

dimensional and so on. Data mining is difficult. The traditional machine learning algorithm has been unable to deal with the problem technologies of current machine learning, and uses divide and conquer algorithm, clustering algorithm, parallel computing and other ability of machine learning.

Key words: big Data; machine Learning; algorithm

据产生和处理的速度快,多为动态实时数据。第三,多样化(Variety)。数据类型丰富,除了结构化数据,更多是半结构化和非结构化数据。第四,密度低(Value)。信息价值密度低,需要数据提纯,从而挖掘有价值的信息。

大数据的处理目标就是从海量异质的数据中挖掘知识,包括数据源的收集、存储管理、数据分析与挖掘以及数据展现等几个方面,运用新一代数据感知、采集、存储、处理、分析及可视化等技术对类型复杂、数据量大、需要实时处理和信息提纯的各种数据,提取有价值的数据,从数据中获得

of big data well. In this context, machine learning algorithm research has become a hot spot. Based on this, the author analyzes the key technologies to make the data more rational, effectively reduce the difficulty of data processing and analysis, and greatly improve the

0 引言

2010年以后,以大数据、人工智能、云计算、移动互联等为代表的新一代信息技术迅速发展,已开始应用在社会经济各领域,传统的机器学习算法在大数据环境下的应用遇到各种挑战,特别是在处理大体量异构数据中挖掘数据的需求时显得力不从心。通过分析和挖掘海量数据发现隐藏于数据背后的价值以及其中的规律,并将这些信息提取出来服务于具体领域,具有重要的现实意义[1-2]。大数据分析挖掘技术为机器学习的发展提供巨大的空间。谷歌、百度、腾讯、微软等互联网巨头在机器学习和大数据领域投入巨资进行深入研究,将信息技术的发展推向新的高度。

规律应用到具体领域中,主要包括数据预测分析、数据挖掘、统计分析、自然语言处理、并行计算和数据可视化等技术。

数据分析是大数据最重要的技术,通过数据分析在海量数据中发现规律和有价值的结果,可以帮助管理者进行科学决策。机器学习算法的发展为大数据分析提供了丰富多样的分析方法。数据挖掘就是从海量的历史数据中,利用各种技术方法,经过整合、归纳与评估,提取出有价值的信息,为企业经营决策提供依据。处理的数据是海量的、不完整的、

1 大数据技术

大数据,是一种在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有以下主要特征。第一,数据量大(Volume)。数据量以PB、EB、ZB(1 ZB=270 Byte)来计量。第二,速度快(Velocity)。数

作者简介:胡永祥(1969—),男,江苏淮安人,硕士研究生,教师。研究方向:人工智能。

— 15 —

算法语言

信息与电脑China Computer & Communication2019年第24期

有噪声的、随机的,需要综合运用人工智能技术、统计学和数据库等技术提取隐含在其中的有用的信息和知识的过程。常见的主要数据挖掘方法有关联分析、分类分析、聚类分析、特征提取、预测分析、异常检测和回归分析等。常用的开源的数据挖掘工具有Weka、RapidMiner、KNIME等,典型的商用软件有IBM SPSS、Oracle Darwin等。

解得原问题。处理大数据时运用分治算法,对原始样本进行预处理,剔除无效的、冗余的数据,获得的样本数据集合能够很好地表达事物的本质,机器学习的目标更明确,学习难度降低,容易形成正确的判断。通常采用的方法为压缩近邻法、约减法等方法选择数据集合,原理就是要找出大数据集合对应的最小集合,通过不断测试完成对子集的加工完善。分治法找到的集合基本代表全体样本,具有较高科学性,从而为大数据分析提供可能。3.2 聚类算法的应用

聚类分析又称群分析,是一种无监督的机器学习算法,它不需要通过样本库训练,更不需要早期的人工标注,具有较高的灵活性和自动化处理能力。

聚类分析内容非常丰富,有系统聚类法、基于K-Means聚类法、基于密度的DBSCAN聚类法、模糊聚类法、图论聚类法和聚类预报法等,具体可归纳为三种:非迭代化数据扩展、连续扩充子集合技术和抽样估计均值算法。这些方法可有效解决大数据在时间、空间、处理速度、运转效率等方面的问题,能从容应对亿万/秒级别的大数据分析。3.3 并行算法的应用

随着数据处理规模指数级增长,传统的机器学习算法明显力不从心,并行化处理可以有效缓解这一问题。先将大数据“碎片化”,分成机器可以单纯处理的数据模块,再综合各个模块数据,最终完成整体的数据处理。Spark和Hadoop都是面向批处理的并行计算模型,Spark提供了大量的库,其中Spark Streaming可以实现高吞吐量的、具备容错机制的实时流数据的处理:先接收实时流数据,按规定的时间间隔拆分数据,再通过Spark Engine得到处理后的结果。并行算法广泛运用于图像处理领域,能有效提升数据的运算能力。并行算法与聚类算法、分治算法有机统一,相互融合,能够让大数据处理更高效流畅,同时提高了机器学习的准确性。

2 机器学习

机器学习是研究计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,其应用遍及人工智能的各个领域。机器学习分为监督学习和无监督学习两大类,在大数据背景下的主要应用有搜索、迭代优化和图计算。

监督学习是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,在监督学习中,每个实例都是由一个输入对象(矢量)和一个期望的输出值(监督信号)组成,主要采用分类和回归算法、决策树算法、k近邻算法、支持向量机算法、朴素贝叶斯算法、Logistic回归、AdaBoost算法以及CART树算法等。无监督学习是根据类别未知的训练样本解决模式识别中的各种问题,常用算法有等距映射、局部线性嵌入、拉普拉斯特征映射、黑塞局部线性嵌入和局部切空间排列等。

除此之外,还有半监督学习和强化学习。在半监督学习模式下,学习过程不依赖外界的咨询交互,训练集同时包含有标记样本数据和未标记样本数据,主要用来预测分析,如图论推理算法、拉普拉斯支持向量机算法等。强化学习是将环境提供的强化信号直接反馈给自治智能体(Agent),模型根据反馈信号做出相应的动态调整,主要应用场景有智能探索、动态系统管理、机器人控制等领域。

Hadoop是一个可靠、高效、可伸缩的能够对大数据进行分布式处理的软件框架。Mahout提供了一些可扩展的机器学习领域经典算法,如序列分析算法、基因算法、聚类分析算法、分类分析算法等,可以帮助开发人员更加方便快捷地创建基于Hadoop的数据挖掘和机器学习算法框架,在大数据并行计算架构下解决了相关问题。

深度学习是一种特定类型的机器学习,让计算机通过较简单概念构建复杂的概念,学习样本数据的内在规律和表示层次,其本质就是通过构建大量底层的机器学习模型和海量的训练数据来学习更有用的特征,从而提升最终分类或者预测的准确性。多层感知机、卷积神经网络、多层学习网络是深度学习领域很有影响的计算模型。

4 结 语

大数据技术已成为当今最热门的技术,应用更科学合理的机器学习算法来满足大数据处理的需求,能够提高效率和准确率。通过运用分治算法、聚类算法和分布式计算等方法,能够让数据变得更具条理,数据表达更有效率,大大降低了数据处理分析的难度,有效提高了机器学习的能力。另外,大数据时代的机器学习还需要解决系统扩展性问题,采用并行化的方法可以大幅度提高系统的处理能力。

3 处理大数据用到的机器学习算法

3.1 分治算法的应用

分治算法的核心思想就是“分而治之”,将一个规模较大的问题分解成若干规模较小的子问题,这些子问题与原问题性质相同且相互,求出子问题的解,层层向上,最终

参考文献

[1]张锋军.大数据技术研究综述[J].通信技术,2014 (11):1240-1248.

[2]吴睿智.大数据融合、分析与价值[J].信息通信技术, 2016(6):123-130.

— 16 —

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- haog.cn 版权所有 赣ICP备2024042798号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务