如何屏蔽 YandexBot

爬虫程序大魔王
• 阅读 168

如何屏蔽 YandexBot

我们经常会受到大量的 YandexBot 访问,我们知道 YandexBot 是 Yandex 的搜索引擎的爬虫

大量的 YandexBot 访问,不仅给服务器造成了非常大的压力,同时也会使正常访客访问网站变慢,影响体验。

基于以上原因,我们不得不限制 YandexBot 的访问,但是需要注意的一点:限制 Yandex 访问会损失 Yandex 带给我们的流量,由于限制了 Yandex 的爬虫索引我们的网站,所以当用户在 Yandex 搜索我们网站的主题词时,不会有任何展示,所以也不会给我们带来任何流量。

如果 Yandex 没有给我们带来任何访客,那我们就屏蔽它吧!

我们可以通过下面三种方式屏蔽 Yandex:

IP 地址屏蔽

我们通过 list crawlers YandexBot 查看到 YandexBot 的 IP 地址,我们直接将这些 IP 加入到黑名单里就可以了,我以 Ubuntu 操作系统为例,如何将 IP 加入到防火墙的黑名单里面:

sudo iptables -A INPUT -s 213.180.203.82 -j DROP

上面的 IP 地址就是我们通过 list crawlers YandexBot 页面查询到的 IP ,直接一个一个的 IP 输入就可以了,一个一行。

好处:直接且迅速。

缺点:可能漏掉一些 YandexBot 的 IP 地址。

通过 User-agent 屏蔽 YandexBot

通过我的这一篇文章:yandex bot user agent,我们可以看到每个 YandexBot 的具体 User-agent,我们在 Nginx 里面可以这样屏蔽具体的 User-agent:

if ($http_user_agent ~* "Yandex") 
{ 
    return 403; 
}

这样我们就可以通过 User-agent 屏蔽 YandexBot 的目的了。

优点:可以迅速直接的屏蔽 YandexBot。

通过 robots.txt 屏蔽 YandexBot

前面文章我已经具体介绍过如何通过 robots.txt 屏蔽 YandexBot 了,在此不多说,需要的可以看这篇文章:block yandex bot

优点:符合官方的规范要求。

缺点:Yandex 的有些爬虫并不遵守 robots.txt 协议,使用 robots.txt 协议也就无法屏蔽了。

总结

这篇文章使用了三种方式屏蔽 YandexBot,并且介绍了优缺点,总有一种方法适合你。

在最后还需要重申一下:如果 Yandex 没有给你带来任何流量,你可以安心屏蔽,如果 Yandex 给你带来了流量,还是要三思而后行

点赞
收藏
评论区
推荐文章
浅梦一笑 浅梦一笑
2个月前
初学 Python 需要安装哪些软件?超级实用,小白必看!
编程这个东西是真的奇妙。对于懂得的人来说,会觉得这个工具是多么的好用、有趣,而对于小白来说,就如同大山一样。其实这个都可以理解,大家都是这样过来的。那么接下来就说一下python相关的东西吧,并说一下我对编程的理解。本人也是小白一名,如有不对的地方,还请各位大神指出01名词解释:如果在编程方面接触的比较少,那么对于软件这一块,有几个名词一定要了解,比如开发环
Karen110 Karen110
1年前
反爬虫策略手把手教你使用FastAPI来限制接口的访问速率
在网络爬虫的过程中,我们都会遇到各种各样的反爬虫,封禁IP和账号,设置验证码,前端加密,浏览器指纹,甚至输出假数据来等等都是可能出现的反爬手段,这些我们今天一个也不会谈及,而是谈谈一种叫访问速率限制的手段。对于服务端而言,有时候会碰到这么一个场景:某个接口需要在某个时间段内设置最高的访问次数来降低服务器的压力,比如之前用的某度的一些接口,一分钟内访问
Stella981 Stella981
1年前
Nginx反爬虫: 禁止某些User Agent抓取网站
一、概述网站反爬虫的原因不遵守规范的爬虫会影响网站的正常使用网站上的数据是公司的重要资产爬虫对网站的爬取会造成网站统计数据的污染常见反爬虫手段1\.根据IP访问频率封禁IP2\.设置账号登陆时长,账号访问过多封禁设置账号的登录限制,只有登录才能展现内容
Wesley13 Wesley13
1年前
Java简单实现滑动窗口
由于最近有一个统计单位时间内某key的访问次数的需求,譬如每5秒访问了redis的某key超过100次,就取出该key单独处理。这样的单位时间统计,很明显我们都知道有个边界问题,譬如5秒内100次的限制。刚好前4.99秒访问都是0,最后0.01秒来了100次,5.01秒又来了100次。也就是访问有明显的毛刺情况出现,为了弱化这个毛刺情况,我们可以采用滑动
Wesley13 Wesley13
1年前
DDOS防护原理
1.常见DDoS攻击分类DDoS粗略分类为流量型攻击和CC攻击。流量型攻击主要是通过发送报文侵占正常业务带宽,甚至堵塞整个数据中心的出口,导致正常用户访问无法达到业务服务器。CC攻击主要是针对某些业务服务进行频繁访问,重点在于通过精心选择访问的服务,激发大量消耗资源的数据库查询、文件IO等,导致业务服务器CPU、内存或者IO出现瓶颈,无法正常提供服务。比
Stella981 Stella981
1年前
Spring cloud微服务安全实战
热点规则热点就是经常访问的数据。很多时候我们希望争对某一些热点数据,然后来进行限制。比如说商品的信息这个服务,我们给它做一个限流,qps是100,某一天我想做一个秒杀活动,可能会有很大的流量,这个时候一个商品的qps就达到100了,这个时候就会把流量给他控制住。其他的商品就都看不了。我希望秒杀这个商品,只把秒杀这个上商品id来的请求,它的qps限
Wesley13 Wesley13
1年前
LAMP架构之访问日志的设置及切割、静态文件失效设置
本文索引访问日志不记录静态文件访问日志切割静态文件过期时间访问日志不记录静态文件为什么要这样设置网站大多为静态网页,网页内部的图片、css文件等同样有其网址链接,如果不设置,这些无效的信息也将被存入访问日志中,会导致访问日志文件大小快速增加,占用大量存储空间。我们可以通过设置不记录某
Stella981 Stella981
1年前
Apache 浏览器访问限制配置
浏览器访问限制配置user\_agent收入的浏览器中,我们通过百度,谷歌很容易就可以查到相关的一些资料,方便了我们对知识的查找,但在某些特定情况下,我们并不希望有人可以通过某写搜索引擎直接访问到我们的网页。举例如果我开放了一个公网的服务,这个网页带宽很小,只能容纳几个人访问,所有在这种条件下我们并不希望更多的人通过百度浏览器,或者谷歌浏览器访
Stella981 Stella981
1年前
Spring Cloud Gateway限流浅析之一段脚本实现令牌桶
前言在一个分布式高并发的系统设计中,限流是一个不可忽视的功能点。如果不对系统进行有效的流量访问限制,在双十一和抢票这种流量洪峰的场景下,很容易就会把我们的系统打垮。而作为系统服务的卫兵的网关组件,作为系统服务的统一入口,更需要考虑流量的限制,直接在网关层阻断流量比在各个系统中实现更合适。SpringCloudGateway的实现
yandex bot user agent
网站收集和整理了所有的,方便大家识别yandexbot。yandexbotuseragent列表Mozilla/5.0(compatible;YandexAccessibilityBot/3.0;http://yandex.com/bots)说明:YandexAccessibilityBot下载页面以检查用户的可访问性。它每秒最多向站
yandexbot ip 地址段
是Yandex的搜索引擎的爬虫。Yandex是一家俄罗斯互联网公司,在俄罗斯经营最大的搜索引擎,在该国拥有约60%的市场份额。截至2012年4月,Yandex排名全球第五大搜索引擎,每天有超过1.5亿次搜索,访客超过2550万。经常有网友问我如何屏蔽yandexbot,或者如何查询yandexbotiprange(yand
爬虫程序大魔王
爬虫程序大魔王
Lv1
天地心从数点见,河山春借一枝回。
16
文章
1
粉丝
0
获赞