加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站

发布时间:2019-02-15 05:02:56 所属栏目:外闻 来源:bcoder
导读:一、Apache ①、通过修改 .htaccess 文件 修改网站目录下的.htaccess,添加如下代码即可(2 种代码任选): 可用代码 (1): RewriteEngineOn RewriteCond%{HTTP_USER_AGENT}(^$|FeedDemon|IndyLibrary|AlexaToolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadW

PHP

  1. //获取UA信息 
  2. $ua = $_SERVER[‘HTTP_USER_AGENT’]; 
  3. //将恶意USER_AGENT存入数组 
  4. $now_ua = array(‘FeedDemon ‘,‘BOT/0.1 (BOT for JCE)’,‘CrawlDaddy ‘,‘Java’,‘Feedly’,‘UniversalFeedParser’,‘ApacheBench’,‘Swiftbot’,‘ZmEu’,‘Indy Library’,‘oBot’,‘jaunty’,‘YandexBot’,‘AhrefsBot’,‘MJ12bot’,‘WinHttp’,‘EasouSpider’,‘HttpClient’,‘Microsoft URL Control’,‘YYSpider’,‘jaunty’,‘Python-urllib’,‘lightDeckReports Bot’); 
  5. //禁止空USER_AGENT,,dedecms等主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT 
  6. if(!$ua) { 
  7.     header(“Content-type: text/html; charset=utf-8”); 
  8.     die(‘请勿采集本站,因为采集的站长木有小JJ!’); 
  9. }else{ 
  10.     foreach($now_ua as $value ) 
  11. //判断是否是数组中存在的UA 
  12.     if(eregi($value,$ua)) { 
  13.         header(“Content-type: text/html; charset=utf-8”); 
  14.         die(‘请勿采集本站,因为采集的站长木有小JJ!’); 
  15.     } 

四、测试效果

如果是 vps,那非常简单,使用 curl -A 模拟抓取即可,比如:

模拟宜搜蜘蛛抓取:

Shell

  1. curl –I –A ‘YisouSpider’ bizhi.bcoderss.com 

模拟 UA 为空的抓取:

Shell

  1. curl –I –A ” bizhi.bcoderss.com 

模拟百度蜘蛛的抓取:

Shell

  1. curl –I –A ‘Baiduspider’ bizhi.bcoderss.com  

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读