您好,欢迎来到好走旅游网。
搜索
您的当前位置:首页基于大数据的网络信息数据流量异常检测方法

基于大数据的网络信息数据流量异常检测方法

来源:好走旅游网
2019年第24期

信息与电脑China Computer & Communication网络与通信技术

基于大数据的网络信息数据流量异常检测方法

陈巧云 王丽媛

(焦作大学 信息工程学院,河南 焦作 454003)

摘 要:网络结构日益复杂,网络故障出现的频率也逐渐增多,对网络管理带来了挑战。在网络管理中,最重要的任务是通过对网络信息数据流量异常情况进行检测,提前进行处置,将故障率降低到最低。对此,笔者提出基于大数据的网络信息数据流量异常检测方法。通过对比实验证明,该方法具有更高的准确率,且检测性能良好,能够满足目前大数据环境下对网络信息数据流量异常的检测要求。

关键词:大数据;数据流量;异常检测

中图分类号:TP393  文献标识码:A  文章编号:1003-9767(2019)24-133-02

Big Data Based Network Information Data Flow Anomaly Detection Method

Chen Qiaoyun, Wang Liyuan

Abstract: The network structure is increasingly complex, and the frequency of network failures is gradually increasing, posing a

(College of Information Engineering , Jiaozuo University, Jiaozuo Henan 454003, China)

challenge to network management. In network management, the most important task is to detect the abnormality of network information data traffic and deal with it in advance to minimize the failure rate. In this regard, a method for detecting abnormality of network data environment.

information data traffic based on big data is proposed. The comparison experiments show that the method has higher accuracy and

Key words: big data; data flow; anomaly detection

保留主成分信息,减少信息的损失,有效降低数据的特征维度,提高对数据的可理解能力和可操作能力。

对数据进行分析时,为了保证各方向数据基线达到平衡

good detection performance, which can meet the requirements of detecting abnormal network information data flow in the current big

0 引言

传统方法对网络数据进行检测大多是通过统计学的相关理论知识进行建模,选择的建模方法会直接影响后续数据检测的效果。常用的方法有支持向量机和神经网络方法。由于受到计算机硬件的限制,传统的检测方法很难对海量的数据信息进行高效、全面的检测。云计算平台可以将网络中的一切有价值的资源整为零,将复杂的大问题划分成若干个小问题,能够有效提高检测的效率,达到预期效果。

[1]

状态,可以利用数据标准化的方式进行处理。标准化的公式为:

z(x)=x−x s(x)(1)

1n(xi−x)2 s(x)=(2)∑n−1i=1式(1)和式(2)中,z表示为新数据,x表示为原数据,

—x表示为平均值,s表示为标准差,n-1表示自由度。假设经

1 基于大数据的网络信息数据流量异常检测方法设计

1.1 数据流量预处理设计

基于大数据的网络信息数据流量异常检测方法,不仅可以处理掉数据中特征维度游离的成分,还可以对数据的整体变动进行降噪处理。在对数据进行分析前需要对数据进行降噪处理。对于大数据中的海量数据信息组成的超大型的网络流量数据集而言,主成分分析方法可以在分析过程中尽量

[2]

过标准化公式处理后的数据集平均值为0,标准差为1。利用标准化处理过的数据分量基准是一样的,才可以进行后续的特征维度转换处理以及降噪操作。

利用主成分分析方法对数据进行处理的主要步骤如下。第一步:利用上述公式计算出数据集为几维数据,并将其用特征矩阵的形式表述出来。第二步:计算出特征矩阵中的平均值向量,再利用平均值向量计算出特征矩阵的协方差矩阵。

作者简介:陈巧云(1983—),女,河北无极人,硕士研究生,助教。研究方向:通信物联网。

— 133 —

网络与通信技术

信息与电脑China Computer & Communication2019年第24期

第三步:计算出与协方差矩阵相对应的特征向量以及特征值,并按照降序进行排列。第四步:从第三步中的特征值中选出较大的特征值,并将与其相对应的特征向量转化为矩阵的形式。第五步:将矩阵当作选取的特征空间,将数据样本向量全部投射到特征空间中,完成对数据的主成分分析。其中,在第四步需要确定较大特征值的个数,选取与特征值个数相同的主成分个数,根据贡献率的计算公式计算出实际应用中特征值的个数以及主成分的个数。1.2 数据流量预测模块设计

在数据流量预测模块,输入层负责接收上文经过主成分分析方法进行降维合成后的数据信息,此时主成分数据是按照时间的顺序进行排列,选择一个合适的分割窗口,每次预测都输入一个与分割窗口长度相同的时间序列数据。在输出层中,每个输出数据都对应一个输入序列的预测结果,并将其结果不断反馈到输入层,使其进行不断的训练,优化数据结构。

在数据流量预测模块中,最重要的是网络训练模块,在本文检测方法中涉及两种数据集,分别是训练集和预测集,而网络训练模块是基于训练集训练的。本文主要使用的训练方法是反向传播训练法,首先从输出层获取到相应的输出结果,再将输出数据与训练集中的数据进行比较,再利用误差项计算出权重的梯度,选择其中最为合适的梯度优化算法完成训练过程。经过训练后的网络主要用于预测数据流量,此时输入的数据集转变为了预测集,利用迭代测试完成预测过程。1.3 数据流量异常检测模块设计

利用已知的正常范围内的网络流量数据,计算出预测的流量数值,再将实际的数值与该数值进行比较,若偏差过大,说明数据流量出现了异常。本文选用支持向量数据描述方法对数据流量异常进行检测,该方法的优势在于包含更多的数据点。若被检测的数据信息在超球面的范围内,则认为被测数据属于这一类,若不包含则说明被测数据不属于这一类。

训练结束后,用于对异常数据流量进行检测的测试集需要首先预测出包含下一个时刻的预测值序列,再将长度相同的预测值与实际被测数值的偏差序列统一输入分类器中,并判断对应的偏差序列是否为正常序列。若结果在分类器中,说明被检测的序列属于正常分类,并通过训练后的预测集完成输出。若预测函数中的结果为正,则说明被检测的数据流量是正常的样本,没有出现异常现象,网络信息数据流量正

常;若结果为负,则说明被检测的数据流量是异常样本,出现了异常现象,网络信息数据流量异常。

2 实验论证分析

2.1 实验准备

为了验证本文方法的可行性,将本文方法与传统检测方法进行对比实验,分别用两种方法对这6组不同异常流量进行检测。设本文方法为实验组,传统方法检测为对照组。2.2 实验结果及分析

计算出两组实验相应的准确率,表1为两组实验结果的准确率对比。

表1 实验组与对照组实验结果对比

异常数据流量类型Flash CrowdDDosWormsAlpha Anomaly

NetPort Scan

实验组检测结果的准确率/%对照组检测结果的准确率/%

92.8493.2795.6192.7898.3690.25

82.6578.1576.1579.2174.3678.24

从表1可以看出,通过对6种异常数据流量类型进行检测,实验组检测结果的准确率明显高于对照组。因此,通过实验证明,本文提出的检测方法准确率更高,且具有良好的检测性能,能够满足在大数据环境下,对网络信息数据流量异常进行检测的要求,更具有实际的应用价值。

3 结 语

为实现网络信息数据流量异常高准确率检测,设计了网络信息数据流量异常检测方法,能够充分挖掘出蕴含在海量网络数据中的有价值信息,并能够及时发现网络信息数据的故障情况。通过本文研究,证实了网络管理方法与大数据的结合具有很大的潜力。今后的研究学习中,还将对二者的充分融合进行进一步研究,为未来网络环境中信息数据的管理发展寻找突破口。

参考文献

[1]姜红红,张涛,赵新建,等.基于大数据的电力信息网络流量异常检测机制[J].电信科学,2017,33(3):134-141.

[2]杨青.基于大数据分析的网络异常流量检测[J].机械设计与制造工程,2018,47(11):83-86.

— 134 —

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- haog.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务