第一个 SyScan 360 女讲师揭密：如何揪出潜伏多年的可怕网络间谍——APT 攻击

发布时间：2016-11-26 14:25:24 所属栏目：安全来源：雷锋网

导读：副标题#e# 世界上最可怕的网络“间谍”恐怕要属“APT 攻击”，潜伏数年、甚至数十年，默默偷取关键数据，它可能不为钱、不为利，但就是为了搞垮你。听上去实在是又贱、又狠的一种黑客攻击。赵雨婷，是第一个登上SyScan 360 安全会议演讲台的女讲师。她是3

之所以要有这么一套看上去十分复杂的流程，是为了利用机器学习来处理威胁情报，检测并识别出 APT 攻击中的恶意载荷，提高 APT 攻击威胁感知系统的效率与精确性，让安全研究人员能更快实现 APT 攻击的发现和溯源。

手把手教你“海底捞针”

那么，到底机器学习是如何帮助甄别威胁情报，从茫茫数据大海中捞取一根有用的针？

这里需要介绍一下背景。

机器学习分为两类：监督学习和无监督学习。很多机器学习的问题都是在解决类别归属的问题，也就是给定一些数据，要判定每条数据是属于哪些类，或者是这条数据可以和哪些其他的数据归为一类，如果一上来就直接对输入的数据进行建模，通过数据内在的属性和联系让机器自动分类，这就属于无监督学习。

如果一开始就知道了本身数据的类别，并且给其中一部分数据打上了标签，通过对这些已经标好类别的数据进行归纳总结，然后得出数据到类别的映射函数，再用映射函数对剩余的数据进行分类，这种就属于监督学习。

赵雨婷指出——无监督学习是机器学习未来发展的一个趋势，但是基于目前的技术水平，她和团队还是更倾向采用监督学习来处理威胁情报，毕竟技术层面上来看更成熟。

采用监督学习的一般过程是：首先是准备训练数据，从训练数据中抽取所需要的特征向量，把特征向量及对应的标记一起放到学习算法中，训练得出一个预测模型，再用相同的特征选取方法，作用于新测试数据，得到用于测试的特征向量。最后使用预测模型对这些带特征向量进行预测，并得到最终结果。

简单而言，处理过程就是特征抽取、筛选、训练和验证。在特征抽取与筛选部分，首先准备训练数据，即一切可以收集到的真实准确的数据，都可以尝试拿来作为威胁情报处理流程的输入数据。在这些大数据中抽取所需要的特征，即特征抽取，将原始数据逐条转化为特征向量，会得到初始向量集。然后就可以对初始特征集进行一次特征筛选，筛选出想要的高效特征，形成特征向量。数据特征的抽取与筛选，主要是为了达到提升模型的目的。如果选取了过多特征，就会浪费服务器资源。如果选取了一些不良特征，就会大大影响模型的精确度。

在训练生成模型的过程中，赵雨婷和团队会从两方面入手：一方面是样本的相关静态特征，另一方面是一切能够观察到的动态行为。

以 PE 文件为例，会先做一个特征抽取，抽取 PE 文件的一些静态特征。比如，文件描述、可执行代码静态数据，签名附件等，形成初始的特征集后，对它进行降维，即特征转化，最后重复上面的这个过程，对模型进行验证。在训练过程中一个比较重要的点是——要维护自己的训练样本，这些训练样本统称为训练集，我们的训练集通常由人工鉴定和算法结合选取出来，训练集的好坏直接影响了最终模型的效率。

预测模型还需进行检测和验证，以保证性能是高效和准确的。在模型检测过程中，赵雨婷及团队会采取留一验证和交叉验证结合使用的方法。

留一验证是什么？举个栗子！

比如，在现有的 APT 样本事件样本集中，抽取一个 APT 事件不参与模型训练，等模型生成后用模型来扫描这个 APT 事件，检验相关的威胁情报扫描结果。

交叉验证就是多次使用留一验证，保证每次不参与训练的事件都不一样，这样是为了保证每一条可以用到的数据都参与了模型验证和训练的过程，会使优化后的模型更加可信。

在实验室阶段，这些方法通常用于检测模型的有效性，在这套流程正式上线前，我们会选择设置一个压力池。压力池中有很多数据，在上线前会对池子里的所有数据进行扫描，然后对扫描结果进行评估，如果这个扫描的结果符合我们的预期效果这个流程才会正式上线。

虽然利用机器学习来挖掘高级威胁情报目前效果不错，但是赵雨婷告诉小编()，还有一个瓶颈——如何要在时间纬度上实现交叉验证。

如何在实现这个纬度以后还能保证这套流程的高效与精确性，是我们接下来研究的重点。

小编原创文章，网页转载请注明来自小编，署名作者和原文链接。微信转载授权，请联系小编公众号（微信ID：leiphone-sz），详情见转载须知。

第一个 SyScan 360 女讲师揭密：如何揪出潜伏多年的可怕网络间谍——APT 攻击

（编辑：应用网_丽江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

之于勒索软件持乐观态	通往零信任的坦途 SAS
网络安全技术趋向	防范数据偷取从了解其