找回密码
 加入怎通
查看: 149|回复: 1

宝塔屏蔽垃圾搜索引擎蜘蛛以及采集扫描工具教程(网页显示宝塔防火墙)

[复制链接]
我来看看 发表于 2023-03-19 14:45:44 | 显示全部楼层 |阅读模式
- q2 j L) [) ?2 N6 `# z

目前除了我们常见的搜索引擎如百度、Google、Sogou、360等搜索引擎之外,还存在其他非常多的搜索引擎,通常这些搜索引擎不仅不会带来流量,因为大量的抓取请求,还会造成主机的CPU和带宽资源浪费,屏蔽方法也很简单,按照下面步骤操作即可,原理就是分析指定UA然后屏蔽。

6 ]0 ~% ~) I- H) M- V k

宝塔面板下使用方法如下:1、找到文件目录/www/server/nginx/conf文件夹下面,新建一个文件命名:agent_deny.conf 你也可以随意起名,创建完文件后,点击编辑这个文件,把下面的代码放进去保存。

T1 m2 o( {3 H" o7 m

(天辰重新收集整理,是为止目前也是最全的,最完善的代码)#禁止Scrapy等工具的抓取 : {$ z. s/ W3 ~* A" ^ if ($http_user_agent ~* (Scrapy|Curl|HttpClient|crawl|curb|git|Wtrace)) {3 n, y. Y6 A5 y6 L h) i( p: P, O return 403;1 f- ?% r/ G' ^" A& P1 k( U 8 ?6 a9 i1 n* i# o' S! A! F } 8 G* u; a% q1 @ ) K7 t% Q! [7 e( H #禁止指定UA及UA为空的访问 , B# I" g0 W# s' s, v% Y if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|Jullo|Feedly|YandexBot|oBot|FlightDeckReports|Linguee Bot|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms|^$" ) {; W- G7 U# H r; E% Q : P1 K9 _$ d: E, O) O return 403;6 d( L- i% f" N- |/ b5 a 0 R# z+ G8 a: k } + [/ F- n$ \* I9 L3 D ' J# @4 k n1 ]/ Z( g% ] #禁止非GET|HEAD|POST方式的抓取 J$ a/ l) I! x v- m if ($request_method !~ ^(GET|HEAD|POST)$) { 6 d# z0 {: \! \& X1 ^. f3 ?8 a+ G$ ^5 ]( a3 }) i2 w3 _. }1 P) [4 x" a/ g; z return 403;, \" ~: _- _9 V+ Z6 Y+ F 0 Q. z4 o' A2 a! s, M$ { } $ h8 _. R* G% K ^3 S

0 g) U1 R9 {/ ~! ?, N' ~

2、找到【网站】-【设置】点击左侧 【配置文件】选项卡,在第7-8行左右 插入代码:

. C) ]2 l: e/ G4 A+ z

include agent_deny.conf; ; Y( l- N3 w' y/ x2 |) U6 _: Y 添加完毕后保存,重启nginx即可,这样这些蜘蛛或工具扫描网站的时候就会提示403禁止访问注意:如果你网站使用火车头采集发布,使用以上代码会返回403错误,发布不了的。

# u t1 D; }& S

如果想使用火车头采集发布,请使用下面的代码:#禁止Scrapy等工具的抓取) S8 ~0 T3 a3 v+ z if ($http_user_agent ~* (Scrapy|Curl|HttpClient|crawl|curb|git|Wtrace)) { ! J, E1 s9 \* K c/ z$ ~" K' D$ D return 403; & f# K% L" ^: `5 B/ V, L 6 T; i: X! w% \$ K } ' s) ] f, `9 z+ X6 X( ~( ? 8 V, d2 `( [' r H% ~ #禁止指定UA及UA为空的访问 * H& @6 u0 o+ U1 e' `2 B if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|Jullo|Feedly|YandexBot|oBot|FlightDeckReports|Linguee Bot|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms ) { 0 R& [; T/ s _4 a6 M4 x% C1 P5 c) N! ~# I0 O; Q( h0 o5 O return 403; 6 ]$ v* y# V* r8 V4 F7 P& m7 n) {- Z! j/ ?* H! [4 S }4 q3 [/ X" U& X# U ) k4 k2 }) S% ~& A5 H" w2 ~$ m' q! f) h #禁止非GET|HEAD|POST方式的抓取2 T7 A$ J' e: L4 e. z if ($request_method !~ ^(GET|HEAD|POST)$) {6 j% y: M7 x9 y6 r9 [ 9 ?; ]- r+ }% p% _, s+ n return 403; ) O- n8 o2 M, @; l* `( H) n $ f# x8 u' K7 B. ?) Y+ V" x2 y }

) |6 g- W$ C2 N" Y4 D

设置完了可以用模拟爬去来看看有没有误伤了好蜘蛛,说明:以上屏蔽的蜘蛛名不包括以下常见的6大蜘蛛名:百度蜘蛛:Baiduspider谷歌蜘蛛:Googlebot必应蜘蛛:bingbot搜狗蜘蛛:Sogou web spider

2 q% L+ j; f* n a2 |. {

360蜘蛛:360Spider神马蜘蛛:YisouSpider爬虫常见的User-Agent如下:FeedDemon 内容采集' n1 x' c2 x/ X0 O' V$ c' k$ g BOT/0.1 (BOT for JCE) sql注入 8 D$ H+ s8 f# k) D4 w; x0 P% O CrawlDaddy sql注入1 [' \" f" K8 x, ]: H4 G& ~ Java 内容采集6 P( | e. T, c Jullo 内容采集 $ ^4 [! U' }: ?+ M Feedly 内容采集7 F3 E; d) j8 T+ \ UniversalFeedParser 内容采集 6 b3 N# q7 s) g ApacheBench cc攻击器1 L# r* t9 c; f Swiftbot 无用爬虫 # M% Y5 a; O* X) N! E8 F YandexBot 无用爬虫/ \: v3 N+ K" f' J$ q AhrefsBot 无用爬虫 # [$ w7 [, [3 Y0 ?4 o8 x% y' V% v+ P jikeSpider 无用爬虫 2 X$ V" x& A8 s9 d MJ12bot 无用爬虫+ u& y. w8 f/ W# G2 B* D ^ ZmEu phpmyadmin 漏洞扫描 8 G& t# @: p( K WinHttp 采集cc攻击# j+ k0 q% V) v EasouSpider 无用爬虫 ; Y5 v; N5 P" ~0 j# q HttpClient tcp攻击 # G: \/ j& _; t" t Microsoft URL Control 扫描+ p9 \- t1 W6 y& s2 D& g YYSpider 无用爬虫 " Q1 L. T- o! X8 I% P$ I, m jaunty wordpress爆破扫描器) v* U7 B- l1 m/ ? oBot 无用爬虫 ' q* H+ D( b1 |' j$ e9 h8 R! z Python-urllib 内容采集 9 a8 ^. G5 Z: X Indy Library 扫描 7 a- ]- a+ l$ s, U( ?, x. | FlightDeckReports Bot 无用爬虫 H7 |; A, n) V( I) T( i* S2 `) l Q Linguee Bot 无用爬虫

3 j. j" v$ j* T- |9 n* k

来源:BT宝塔屏蔽垃圾搜索引擎蜘蛛以及采集扫描工具教程

+ K8 h1 E" G7 l! O; Q# r ! t- D* [7 ]) Q- r9 K6 N7 C8 j! @& C. |8 M0 L3 E 1 P' ^- Y! b) h1 Y' A 4 u1 r! e/ a$ g6 m5 ]
回复

使用道具 举报

崔缠刁 发表于 2026-04-04 06:23:22 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-4-30 06:45 , Processed in 0.213022 second(s), 49 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表