百度网址安全中心,这个神秘的组织如何为世上所有的网址“验明正身”?
木马传播到电脑上,一般都会利用漏洞,而这些漏洞都有“特征内容”。利用对这些特征的识别,就可以判断出网页是否有挂马行为。但是,很多黑产也会采用加密、变形等手段增加我们的检测难度。我们主要在对抗这些手段。 冯景辉说。 有些网页在脚本中隐藏了恶意木马,但是这种隐蔽方法和一些病毒类似,需要在真实的网页环境中才会被触发。对于这类“嫌疑网页”,百度网址安全中心的童鞋们会利用类似“沙箱”的系统,让网页脚本跑在虚拟机中,让它露出“真面目”。 优雅地“鉴黄”对于“黄赌毒”内容的检测,和传统反病毒所需的技术差别很大。实际上,引擎所要做的基本任务,就是根据网页内容把它进行分类。 这里面主要用到了一种数学技术:TF-IDF 算法。 所谓 TF-IDF 算法,简单说来就是提取网页内能够表述网页内容的关键词,找到在这个网页中出现频繁,但是其他网页中并不普遍的词汇。 这种技术,往往可以帮助系统判断一个网页的“中心思想”,判定“黄赌毒”再适合不过。 识别钓鱼网站仿冒正规网站的钓鱼网站,精髓就在于“像”。 既然黑产的目的是“像”,那么对抗的技术就是“对比相似性”。这其中又主要用到一种数学算法:SIMHASH 算法。 简单说来,SIMHASH 算法就是把一个网页内容转换成一个64位的“特征字”,如果两个内容的特征字距离小于规定值,那么就判定二者相似度极高。这种算法最早由谷歌研发,用于网页搜索去重。 写过毕业论文的童鞋都知道,从网上 Down 哪怕一段内容,都会被论文查重系统的火眼金睛发现。没错,老师们正是用 SIMHASH 这种“人类智慧的结晶”在和“不法学生”对抗。 然而,在钓鱼网页中,还有70%的“虚假中奖”类页面,它们并没有仿冒其他网页,这对于冯景辉和团队来说,是一个不大不小的难题。 对于这样的问题,他们手里还有一样“秘密武器”。 秘密武器——人工智能判断一个网页是不是“虚假中奖”页面,对于一个人来说,可能是小菜一碟。如果可以训练机器来模拟人的判断,问题就会迎刃而解。 人工智能,可是百度的“招牌菜”。 冯景辉告诉雷锋网(公众号:雷锋网)宅客频道,
【虚假中奖网页】 识别“高段位”的黄赌毒网页,同样需要这种深度学习的方法。 例如一些小说站和图片站。对于描写的尺度、内衣的高度(为了防止本文被判定为黄赌毒网页,就不多说了)这些擦边程度的判断,只能人为地划定标准(参考车展和 ChinaJoy 为美女“量身定做”的“两厘米”规则。。。),然后把这些标准输入深度学习系统,把这种让人“心力交瘁”的工作甩给机器。 以上这种深度学习的方法, 被称为“有监督学习”,简单来说,就是需要人类不断提供一些特征标准,机器根据这些特征进行下一步总结。但是冯景辉说,他们下一步想要搞的,是“无监督学习”。 无监督学习,就是根本不告诉人工智能系统任何“人类总结出的特征”,仅仅是给它大量的黑白样本,让系统自动抽象出一些特征。人类只负责告诉机器它的判断是对还是错,机器根据这个结果来改进它总结的特征。 这些特征往往非常奇葩,有些以人类大脑的逻辑并不容易总结和表述。但是,这类“无法描述”的特征往往一针见血,精准异常。 深度对抗——魔高一尺,道高一尺五连人工智能这种“原子弹”级别的武器都被抬出来了,这下该天下太平了吧?哈哈,图样图森破。 充斥着黑产的赛博世界从来都是“Hard”模式。要知道,冯景辉和团队面对的是无数“老司机”,“束手就擒”这四个字从来就不在他们的字典里。 冯景辉举了一个最简单的例子:
然而,一言不合黑产老司机就脑洞大开,新玩法层出不穷。 “林丹”身上的恶意网址不要低估黑产的嗅觉。 在“林丹”事件被爆出的那一刻,反应最快的不是林丹,不是谢杏芳,而是黑产。他们手中控制了一个僵尸网站群,在第一时间把这一站群的集中引用页面的关键词都改为“林丹”,这样,这一站群的关键词都会成为林丹,被搜索引擎自动匹配关联。 这样,在有关林丹的消息还没有大规模爆发的时间窗口,恶意网站就会占领搜索引擎的最佳位置。 由于平时这些网站群处于“蛰伏”状态,不一定被“战斗爬虫”和“检测引擎”发现。此时它们突然大规模跳出,借助人们对于林丹的“如火热情”,可以大赚一票。 当然,“林丹”显然是躺枪。最近每出现一个爆炸性的新闻,黑产都会利用流量效应迅速“捞一把”。 另外,百度搜索引擎有联想功能,可以关联两个相关的词汇。例如:人们会搜索某个明星的名字,但是名字比较复杂,很多人第一次输入错误,搜索之后又更正为正确的重新搜索。这时,搜索引擎就会自动关联这两个词汇。 【黑客利用木马组建受自己控制的僵尸网络,为黑产“顾客”提供服务】 (编辑:应用网_丽江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |