Как заблокировать ботов по User-agent
Для чего блокировать некоторых поисковых ботов
Активность сканирующих ботов и роботов-пауков известных поисковых систем обычно не влияет на загрузку сайта и не уменьшает скорость его работы. Но большая часть сканирующих ботов бесполезна и даже может повредить производительности сайта.
Например, боты DotBot или Semrush. Были случаи, когда эти боты посылали так много запросов к сайту, что это было похоже на небольшую DDoS атаку. Большое количество запросов перегружает сайт и веб сервер, таким образом сайт может стать недоступным для других посетителей.
Мы настоятельно рекомендуем блокировать чрезмерно активных ботов, если на вашем сайте более 100 страниц, особенно если вы уже исчерпали ограничения предоставленные вам вашим хостингом.
Два способа заблокировать вредоносных ботов
1. С помощью включения опций Anti-Flood и Anti-Crawler плагина Анти-Спам от CleanTalk.
Этот способ предпочтительнее, т.к. плагин определяет активность ботов по их поведению. Любой бот с высокой активностью будет автоматически перенаправлен на 403 на некоторое время, независимо от user-agent и других признаков. Поисковые боты Google, Bing, MSN, Yandex добавлены в исключения и не будут блокироваться.
Больше информации об опциях: https://cleantalk.org/help/anti-flood-and-anti-crawler
Инструкция по установке: https://cleantalk.org/help/install-wordpress
2. С помощью .htacces для серверов apache или nginx.conf для Nginx.
Мы не рекомендуем использование этого способа. Слишком большое количество записей в .htaccess может замедлить работу веб сервера!
Как заблокировать популярных поисковых ботов с помощью .htacces для Apache и nginx.conf для Nginx
1. Как заблокировать бота Baidu
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block baidu bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} baidu [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block baidu bot nginx
if ($http_user_agent ~* (baidu|baidubot) ) {
return 403;
}
2. Как заблокировать бота AhrefsBot
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block AhrefsBot bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC]
RewriteRule .* - [F,L]
</IfModule>
для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block AhrefsBot bot nginx
if ($http_user_agent ~* (AhrefsBot) ) {
return 403;
}
3. Как заблокировать бота MJ12bot
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block MJ12bot bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block MJ12bot bot nginx
if ($http_user_agent ~* (MJ12bot) ) {
return 403;
}
4. Как заблокировать бота Detectify
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Detectify bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} Detectify [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Detectify bot nginx
if ($http_user_agent ~* (Detectify) ) {
return 403;
}
5. Как заблокировать бота DuckDuckGo
Для .htaccess:
Добавьте этот код в конце файла .htaccess :
# block DuckDuckGo bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} DuckDuckGo [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block DuckDuckGo bot nginx
if ($http_user_agent ~* (DuckDuckGo) ) {
return 403;
}
6. Как заблокировать бота Semrush
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Semrush bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} semrush [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Semrush bot nginx
if ($http_user_agent ~* (semrush) ) {
return 403;
}
7. Как заблокировать бота Seznam
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Seznam bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} seznam [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Seznam bot nginx
if ($http_user_agent ~* (seznam) ) {
return 403;
}
8. Как заблокировать бота Zgrab
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Zgrab bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} zgrab [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Zgrab bot nginx
if ($http_user_agent ~* (zgrab) ) {
return 403;
}
9. Как заблокировать бота Petalbot
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Petalbot bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} petalbot [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Petalbot bot nginx
if ($http_user_agent ~* (petalbot) ) {
return 403;
}
10. Как заблокировать бота Jorgee
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Jorgee bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} jorgee [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Jorgee bot nginx
if ($http_user_agent ~* (Jorgee) ) {
return 403;
}
11. Как заблокировать бота Yandex
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Yandex bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} yandex [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Yandex bot nginx
if ($http_user_agent ~* (yandex) ) {
return 403;
}
12. Как заблокировать бота Dotbot
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Dotbot bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} dotbot [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Dotbot bot nginx
if ($http_user_agent ~* (dotbot) ) {
return 403;
}
13. Как заблокировать бота Sogou
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block Sogou bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} sogou [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block Sogou bot nginx
if ($http_user_agent ~* (sogou) ) {
return 403;
}
14. Как заблокировать нескольких ботов одновременно
Для .htaccess:
Добавьте этот код в конце файла .htaccess:
# block bot htaccess
<IfModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} baidu [NC]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC]
RewriteRule .* - [F,L]
</IfModule>
Для nginx.conf:
Добавьте этот код в раздел HTPP{} файла nginx.conf:
#block bot nginx
if ($http_user_agent ~* (baidu|baidubot|AhrefsBot|MJ12bot) ) {
return 403;
}
Вы можете заблокировать любой user-agent. Вот список некоторых известных поисковых ботов.
yandex
baidu
petalbot
semrush
Cliqzbot
SurdotlyBot
zgrab
Jorgee
dotbot
seznam
duckduckgo
sogou
exabot
AhrefsBot
InterfaxScanBot
SputnikBot
SolomonoBot
MJ12bot
Detectify
Riddler
omgili
socialmediascanner
Jooblebot
SeznamBot
Scrapy
CCBot
linkfluence
veoozbot
Leikibot
Seopult
Faraday
hybrid
Go-http-client
SMUrlExpander
SNAPSHOT
getintent
ltx71
Nuzzel
SMTBot
Laserlikebot
facebookexternalhit
mfibot
OptimizationCrawler
crazy
Dispatch
ubermetrics
HTMLParser
musobot
petalbot
filterdb
InfoSeek
omgilibot
DomainSigma
SafeSearch
CommentReader
meanpathbot
statdom
proximic
spredbot
StatOnlineRuBot
openstat
DeuSu
semantic
postano
masscan
Embedly
NewShareCounts
linkdexbot
GrapeshotCrawler
Digincore
NetSeer
help.jp
PaperLiBot
getprismatic
360Spider
Ahrefs
ApacheBench
Aport
Applebot
archive
BaiduBot
Baiduspider
Birubot
BLEXBot
bsalsa
Butterfly
Buzzbot
BuzzSumo
CamontSpider
curl
dataminr
discobot
DomainTools
DotBot
Exabot
Ezooms
FairShare
FeedFetcher
FlaxCrawler
FlightDeckReportsBot
FlipboardProxy
FyberSpider
Gigabot
gold crawler
HTTrack
ia_archiver
InternetSeer
Jakarta
Java
JS-Kit
km.ru
kmSearchBot
Kraken
larbin
libwww
Lightspeedsystems
Linguee
LinkBot
LinkExchanger
LinkpadBot
LivelapBot
LoadImpactPageAnalyzer
lwp-trivial
majestic
Mediatoolkitbot
MegaIndex
MetaURI
MJ12bot
MLBot
NerdByNature
NING
NjuiceBot
Nutch
OpenHoseBot
Panopta
pflab
PHP/
pirst
PostRank
ptd-crawler
Purebot
PycURL
Python
QuerySeekerSpider
rogerbot
Ruby
SearchBot
SemrushBot
SISTRIX
SiteBot
Slurp
Sogou
solomono
Soup
spbot
suggybot
Superfeedr
SurveyBot
SWeb
trendictionbot
TSearcher
ttCrawler
TurnitinBot
TweetmemeBot
UnwindFetchor
urllib
uTorrent
Voyager
WBSearchBot
Wget
WordPress
woriobot
Yeti
YottosBot
Zeus
zitebot
ZmEu
Если Вы не нашли ответ на интересующий вас вопрос, то предлагаем вам связаться с нашими специалистами. [ https://cleantalk.org/my/support/open ].