加密流量分类-论文11: FlowPic_ A Generic Representation for Encrypted Traffic Classification and Applications
本文于 538 天之前发表,文中内容可能已经过时。
0、摘要
利用了流中与时间相关和与大小相关的特性,将基本流量数据转换为直观的图片FlowPic,然后使用已知的图像分类深度学习技术cnn来识别流量类别(浏览、聊天、视频等)和正在使用的应用程序。但是不是使用负载数据形成的特征图。
1、介绍
对于每个流,我们的方法根据数据包大小和数据包到达时间创建一个图像,我们称之为FlowPic。
- 不依赖于数据包有效负载内容,因此不会侵犯隐私
- 存储需求非常小,分类速度块,近乎实时,可以进行在线的流量分类
2、数据集介绍
数据集:ISCX VPN-nonVPN、ISCX Tor-nonTor、作者团队自己捕获的数据集(命名为TAU)
分类标签类别:
VoIP
Video
Chat
File Transfer
Browsing
因此,对于五个类别,三种加密技术(非VPN、VPN、Tor),相当于15种流量。
显然这是关于流量类型识别
2.1 数据处理
主要是写作者自己数据的收集的一些细节。
2.2 数据增强
单向流分大小相等的块,实验中为每隔60s分为一个块
但是为了进行数据增强,就将两个块之间进行重叠,重叠时间设置为45秒,这样块与块之间的间隔为15秒
数据扩充过程是在将所有会话分割为一个训练集和一个测试集之后进行的,确保训练块和测试块之间在单个会话中没有重叠
(数据增广后的每个类别的样本数目)
2.3 敏感性分析
关于数据增强是否真的有效?块长大小为多少合适?
结论:
3.1 构建FlowPic
提取每个单向流中的每个数据包的两个特征IP包大小、到达时间
构建一个基于流的二维直方图的图像,该图像可以被视为负载大小分布(PSD)
X轴为包的到达时间,Y轴为包的大小
绝大多数包的大小都不超过1500字节(这是以太网MTU值),将y轴限制在1到1500之间。
对于x轴,将2d直方图设置为正方形图像。为此,我们将所有到达时间值标准化为0到1500之间(即60秒映射为1500)
- 生成1500x1500的直方图,直方图命名为FlowPic,存储在矩阵当中,作为模型输入
3.2 FlowPic分析
这里说了作者在对生成FlowPic的一点分析,从而说明FlowPic能反映出网络流通特征复杂,使用深度神经网络模型进行特征提取并分类是很有必要的。
- 分析1:在不同应用下,对视频流的分析:
不用应用下的流量类型表现不同特性,例如,Netflix传输的数据包大小几乎是固定的,而Skype、Facebook和谷歌Hangout等应用程序传输的大小分布广泛。并且,视频流不仅限于显示元素,还包括行为与VoIP相同的音频流,以及看起来像聊天传输的用于协调和控制的小数据包流。相比之下,例如在Skype上,视频流和音频流是分开的。
分析2:加密技术对流量类别的流行为的影响:
在不同的加密技术之间,有些类别的flowpic行为完全不同
分析3:Tor的加密技术下,Tor流量的包的大小分布比较离散,从图中可以看出来,与非vpn流量中的许多包大小不同。
4 卷积神经网络结构设计
输入:二维1500x1500图像
输出:2或者流量类别(2是判定是否为NonVPN)
延迟分析:TBS +TFC +TML
TBS是自定义块大小(15、30或60秒)
TFC是FlowPic构建时间
TML是执行分类的CNN运行时间。
实验中,我们发现TFC和TML都是0.1 s,与块大小相比可以忽略不计,故可以满足在线分类要求。
5、实验
5.1 处理样本不平衡问题
方法:过采样、欠采样
5.1.1 多类分类情况
流量类型分类(Traffic categorization):对于三种数据集(非VPN、VPN和Tor)合并其中相同类型的,而不考虑加密技术,动机是研究加密技术如何影响流量行为。
加密技术分类:即3分类,识别出是否为非VPN、VPN和Tor三种的某一种流量。
应用识别:使用创建的数据集,在VoIP类型与视频类型下捕获10个应用程序的三种加密方式(非VPN、VPN、Tor)的流量。
5.1.2 一对多的分类情况
为3种加密技术构建类与所有数据集:非VPN、VPN(针对所有类,除了browse)和TOR,以及合并数据集。对于每种加密技术,每个流类别合并数据集包含相同数量的会话。
训练测试集比例是 9:1
Wang等人link)使用每个流的前784字节对ISCX VPN-非VPN数据集上的流量进行分类,并使用不同的表示方法分别对非VPN和VPN流量实现了83.0%和98.6%的最佳准确性。但Wang的实验没有包括浏览类别,因为很难将其与其他类别区分开来。从上图的混淆矩阵可以看出,,难以区分浏览和聊天是导致准确度下降的主要原因。
与其他方法的对比
还有很多的实验结果:比如未知流量识别、加密技术分类、应用分类,不一一列举。
5、总结与思考
亮点:FlowPic的图生成很好,模型分类快,能进行在线分类,不依赖于双向流信息
只考虑时间特征,可以结合空间特征,构造常规的有效载荷流量图,然后进行结合着进行分类?