yandex robots txt

爬虫程序大魔王
• 阅读 124

yandex robots txt

robots.txt 是一个包含网站索引参数的文本文件,供搜索引擎的机器人使用。

Yandex 支持具有高级功能的 Robots Exclusion 协议。

当抓取一个网站时,Yandex 机器人会加载 robots.txt 文件。如果对该文件的最新请求显示某个网站页面或部分被禁止,机器人就不会索引它们。

Yandex robots.txt 文件的要求

Yandex 机器人可以正确处理 robots.txt,但是需要满足以下要求:

  • 文件大小不超过 500KB。

  • 它是一个名为 "robots "的TXT文件, robots.txt。

  • 该文件位于网站的根目录中。

  • 该文件可供机器人使用:托管网站的服务器以 HTTP 代码回应,状态为 200 OK。检查服务器的响应

如果文件不符合要求,该网站被认为是开放索引的,也就是 Yandex 搜索引擎可以任意访问网页内容。

Yandex 支持从位于一个网站的 robots.txt 文件重定向到位于另一个网站的文件。在这种情况下,目标文件中的指令被考虑在内。这种重定向在移动网站时可能很有用。

Yandex 访问 robots.txt 的一些规则

在 robots.txt 文件中,机器人会检查以 User-agent: 开头的记录,并寻找字符 Yandex(大小写不重要)或 *。如果 User-agent: Yandex 字符串被检测到,User-agent: * 字符串会被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被发现,机器人将被视为具有无限的访问权限。

你可以为 Yandex 机器人输入单独的指令。

例如下面的一些示例:

User-agent: YandexBot # 用于索引爬虫的写法
Disallow: /*id=

User-agent: Yandex # 将会对所有 YandexBot 起效
Disallow: /*sid= # 除了主要的索引机器人

User-agent: * # 对 YandexBot 不会起作用
Disallow: /cgi-bin 

根据标准,你应该在每个 User-agent 指令前插入一个空行。#字符指定了注释。在这个字符之后的所有内容,直到第一个换行,都将被忽略。

robots.txt Disallow 与 Allow 指令

Disallow 指令,使用此指令禁止索引站点部分或单个页面。例子:

  • 包含机密数据的页面。

  • 带有站点搜索结果的页面。

  • 网站流量统计。

  • 重复页面。

  • 各种日志。

  • 数据库服务页面。

下面是 Disallow 指令的示例:

User-agent: Yandex
Disallow: / # 禁止对整个网站进行抓取

User-agent: Yandex
Disallow: /catalogue # 禁止抓取以 /catalogue 开头的页面。

User-agent: Yandex
Disallow: /page? # 禁止抓取含有参数的 URL 的页面

robots.txt Allow 指令

该指令允许索引站点部分或单个页面。下面是示例:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# 禁止索引任何页面,除了以'/cgi-bin'开头的网页

User-agent: Yandex
Allow: /file.xml
# 允许索引 file.xml 文件

robots.txt 组合指令

相应的用户代理块中的 Allow 和 Disallow 指令会根据 URL 前缀长度(从最短到最长)进行排序,并按顺序应用。如果有几个指令与一个特定的网站页面相匹配,机器人会选择排序列表中的最后一个指令。这样,robots.txt 文件中指令的顺序就不会影响机器人使用它们的方式。

# robots.txt 文件示例:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# 禁止索引以 '/catalog' 开头的页面
# 但是可以索引以 '/catalog/auto' 开头的页面地址

总结

以上是关于 Yandex 爬虫对于 robots.txt 的一些规则写法,可以通过指定配置,允许或禁止 Yandex 爬虫抓取或禁止抓取页面。

参考资料

点赞
收藏
评论区
推荐文章
浅梦一笑 浅梦一笑
2个月前
初学 Python 需要安装哪些软件?超级实用,小白必看!
编程这个东西是真的奇妙。对于懂得的人来说,会觉得这个工具是多么的好用、有趣,而对于小白来说,就如同大山一样。其实这个都可以理解,大家都是这样过来的。那么接下来就说一下python相关的东西吧,并说一下我对编程的理解。本人也是小白一名,如有不对的地方,还请各位大神指出01名词解释:如果在编程方面接触的比较少,那么对于软件这一块,有几个名词一定要了解,比如开发环
建站后搜索不到?进来看这里!各大搜索引擎收录指引!
创建网站后,为了让网站尽快的被搜索到,可以到各大搜索引擎提交网址,以便加快收录速度。另外,优质域名的收录速度会比二级域名的高很多,所以建议在创建网站后,购买或绑定优质域名,有助于网站的收录,同时,创建网站后较好有规律的不断更新内容,也能够提高搜索引擎的关注,因为搜索引擎总是对新鲜的内容感兴趣,有新的内容会刺激它更频繁的检索你的网站。(注:优质域名指“一级域名
Stella981 Stella981
1年前
ClickHouse性能测试
> 对ClickHouse做个简单的性能测试。 #### ClickHouse简介 ClickHouse是战斗民族Yandex公司出品的OLAP开源数据库,简称CH,也有人简称CK,是目前市面上最快的OLAP数据库。性能远超Vertica、Sybase IQ等。 CH具有以下几个特点: 1. 列式存储,因此数据压缩比高。 2. 向量计算
Stella981 Stella981
1年前
OLAP新秀ClickHouse性能测试
> 对ClickHouse做个简单的性能测试。 ### **ClickHouse简介** ClickHouse是战斗民族Yandex公司出品的OLAP开源数据库,简称CH,也有人简称CK,是目前市面上最快的OLAP数据库。性能远超Vertica、Sybase IQ等。 CH具有以下几个特点: 1. 列式存储,因此数据压缩比高。 2. 向量计算,且
Wesley13 Wesley13
1年前
UVA 1601 The Morning after Halloween
https://vjudge.net/problem/UVA-1601 题目 == 你在游乐场的鬼屋里当操作员,专门控制鬼屋里的机器人……某日没事干的出题人把这些机器人搬到了其他地方,你需要在最短的时间内遥控机器人让他们回到原位。所有机器人都可以同时在1秒内朝四个方向(上下左右)移动1格,但是每次移动都必须符合以下条件 1. 每个格子只能有一个机器人
Stella981 Stella981
1年前
Nginx优化防爬虫 限制http请求方法 CDN网页加速 架构优化 监牢模式 控制并发量以及客户端请求速率
Nginx防爬虫优化 ---------- Robots协议(也称为爬虫协议,机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 我理解的是robots.txt是通过代码控制搜索引擎蜘蛛索引的一个手段,以便减轻网站服务器的带宽使用率,从
3A网络 3A网络
2个月前
网站优化(一)—— 从何处着手开启网站优化?
网站优化(一)—— 从何处着手开启网站优化?网站优化是指使用工具、高级策略和实验来提高网站性能,从而推动流量增加转化率和增加收入的过程。搜索引擎优化 (SEO)是常见的一种网站优化方式,它可以帮助网站的各个页面在特定关键字的 SERP(搜索引擎结果页面) 中排名靠前,让用户在百度、谷歌等搜索时先看到你的网站。如果想要进一步优化网站,让用户体验更好,那是一个很
你需要知道的 10 大互联网爬虫
机器人和僵尸网络通常与网络犯罪分子窃取数据、身份、信用卡号码和更糟糕的情况有关。但是,机器人也可以有好的目的。将好的机器人与坏的机器人区分开来,也可以在保护你公司的网站和确保你的网站获得应有的互联网流量方面发挥很大作用。大多数好的机器人基本上都是世界上最大的网站派出的爬虫,为其搜索引擎和社交媒体平台索引内容。你想让这些机器人访问你。它们会给你带来更多的访问量
什么是网络爬虫?
什么是网络爬虫网络爬虫是一种在 Internet 上运行自动化任务的软件应用程序。与人类互联网活动相比,网络爬虫运行的任务通常很简单,并且执行速度要快得多。有些机器人是合法的——例如,Googlebot 是 Google 用来抓取互联网并将其编入索引以进行搜索的应用程序。其他机器人是恶意的——例如,用于自动扫描网站以查找软件漏洞并执行简单攻击模式的机器人。
yandexbot ip 地址段
是 Yandex 的搜索引擎的爬虫。Yandex 是一家俄罗斯互联网公司,在俄罗斯经营最大的搜索引擎,在该国拥有约 60% 的市场份额。截至 2012 年 4 月,Yandex 排名全球第五大搜索引擎,每天有超过1.5 亿次搜索,访客超过 2550 万。经常有网友问我如何屏蔽 yandexbot,或者如何查询 yandexbot ip range(yand
yandex bot user agent
网站收集和整理了 所有的 ,方便大家识别 yandexbot。 yandexbot useragent 列表Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)说明:YandexAccessibilityBot 下载页面以检查用户的可访问性。它每秒最多向站