百度网址安全中心，这个神秘的组织如何为世上所有的网址“验明正身”？

发布时间：2016-12-14 10:50:30 所属栏目：评论来源：雷锋网

导读：副标题#e# 网络世界，就像一道无尽的步行街。而不同的网址，就像一扇扇大门，分列在街道左右。这些门背后，有摩天大厦，也有木屋小宅。例如：你推开“www.taobao.com”这扇门，就走入了琳琅满目的商

木马传播到电脑上，一般都会利用漏洞，而这些漏洞都有“特征内容”。利用对这些特征的识别，就可以判断出网页是否有挂马行为。但是，很多黑产也会采用加密、变形等手段增加我们的检测难度。我们主要在对抗这些手段。

冯景辉说。

有些网页在脚本中隐藏了恶意木马，但是这种隐蔽方法和一些病毒类似，需要在真实的网页环境中才会被触发。对于这类“嫌疑网页”，百度网址安全中心的童鞋们会利用类似“沙箱”的系统，让网页脚本跑在虚拟机中，让它露出“真面目”。

优雅地“鉴黄”

对于“黄赌毒”内容的检测，和传统反病毒所需的技术差别很大。实际上，引擎所要做的基本任务，就是根据网页内容把它进行分类。

这里面主要用到了一种数学技术：TF-IDF 算法。

所谓 TF-IDF 算法，简单说来就是提取网页内能够表述网页内容的关键词，找到在这个网页中出现频繁，但是其他网页中并不普遍的词汇。

这种技术，往往可以帮助系统判断一个网页的“中心思想”，判定“黄赌毒”再适合不过。

识别钓鱼网站

仿冒正规网站的钓鱼网站，精髓就在于“像”。

百度网址安全中心，这个神秘的组织如何为世上所有的网址“验明正身”？ | 深度

既然黑产的目的是“像”，那么对抗的技术就是“对比相似性”。这其中又主要用到一种数学算法：SIMHASH 算法。

简单说来，SIMHASH 算法就是把一个网页内容转换成一个64位的“特征字”，如果两个内容的特征字距离小于规定值，那么就判定二者相似度极高。这种算法最早由谷歌研发，用于网页搜索去重。

写过毕业论文的童鞋都知道，从网上 Down 哪怕一段内容，都会被论文查重系统的火眼金睛发现。没错，老师们正是用 SIMHASH 这种“人类智慧的结晶”在和“不法学生”对抗。

然而，在钓鱼网页中，还有70%的“虚假中奖”类页面，它们并没有仿冒其他网页，这对于冯景辉和团队来说，是一个不大不小的难题。

对于这样的问题，他们手里还有一样“秘密武器”。

秘密武器——人工智能

判断一个网页是不是“虚假中奖”页面，对于一个人来说，可能是小菜一碟。如果可以训练机器来模拟人的判断，问题就会迎刃而解。

人工智能，可是百度的“招牌菜”。

冯景辉告诉雷锋网(公众号：雷锋网)宅客频道，

除了一些司法上的特征，很多“虚假中奖”页面还会有其他的特征，例如：
网页中的图片比例很高，呈现瀑布流状;
而这类网页链接由于频繁变动，经常是一些和正常网址不一样的奇怪域名。
这类网站也会引用大量的外部链接。
类似的特征还有很多，把这些特征参数放到深度学习引擎中，机器就可以自己总结出一套判定“虚假中奖”页面的标准，实现自动的智能识别。

百度网址安全中心，这个神秘的组织如何为世上所有的网址“验明正身”？ | 深度

【虚假中奖网页】

识别“高段位”的黄赌毒网页，同样需要这种深度学习的方法。

例如一些小说站和图片站。对于描写的尺度、内衣的高度(为了防止本文被判定为黄赌毒网页，就不多说了)这些擦边程度的判断，只能人为地划定标准(参考车展和 ChinaJoy 为美女“量身定做”的“两厘米”规则。。。)，然后把这些标准输入深度学习系统，把这种让人“心力交瘁”的工作甩给机器。

以上这种深度学习的方法，被称为“有监督学习”，简单来说，就是需要人类不断提供一些特征标准，机器根据这些特征进行下一步总结。但是冯景辉说，他们下一步想要搞的，是“无监督学习”。

无监督学习，就是根本不告诉人工智能系统任何“人类总结出的特征”，仅仅是给它大量的黑白样本，让系统自动抽象出一些特征。人类只负责告诉机器它的判断是对还是错，机器根据这个结果来改进它总结的特征。

这些特征往往非常奇葩，有些以人类大脑的逻辑并不容易总结和表述。但是，这类“无法描述”的特征往往一针见血，精准异常。

深度对抗——魔高一尺，道高一尺五

连人工智能这种“原子弹”级别的武器都被抬出来了，这下该天下太平了吧?哈哈，图样图森破。

充斥着黑产的赛博世界从来都是“Hard”模式。要知道，冯景辉和团队面对的是无数“老司机”，“束手就擒”这四个字从来就不在他们的字典里。

冯景辉举了一个最简单的例子：

很多黑产为了躲避对违法文本内容的打击，会把这些文本做成图片的形式。当然，图片上的 OCR 文字识别技术已经很成熟了。我们需要做的，就是把这种技术重新部署进我们的系统，不断升级对抗的手段。

然而，一言不合黑产老司机就脑洞大开，新玩法层出不穷。

“林丹”身上的恶意网址

不要低估黑产的嗅觉。

百度网址安全中心，这个神秘的组织如何为世上所有的网址“验明正身”？ | 深度

在“林丹”事件被爆出的那一刻，反应最快的不是林丹，不是谢杏芳，而是黑产。他们手中控制了一个僵尸网站群，在第一时间把这一站群的集中引用页面的关键词都改为“林丹”，这样，这一站群的关键词都会成为林丹，被搜索引擎自动匹配关联。

这样，在有关林丹的消息还没有大规模爆发的时间窗口，恶意网站就会占领搜索引擎的最佳位置。

由于平时这些网站群处于“蛰伏”状态，不一定被“战斗爬虫”和“检测引擎”发现。此时它们突然大规模跳出，借助人们对于林丹的“如火热情”，可以大赚一票。

当然，“林丹”显然是躺枪。最近每出现一个爆炸性的新闻，黑产都会利用流量效应迅速“捞一把”。

另外，百度搜索引擎有联想功能，可以关联两个相关的词汇。例如：人们会搜索某个明星的名字，但是名字比较复杂，很多人第一次输入错误，搜索之后又更正为正确的重新搜索。这时，搜索引擎就会自动关联这两个词汇。

百度网址安全中心，这个神秘的组织如何为世上所有的网址“验明正身”？ | 深度

【黑客利用木马组建受自己控制的僵尸网络，为黑产“顾客”提供服务】

（编辑：应用网_丽江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页