yandex robots txt

爬虫程序大魔王
• 阅读 354

yandex robots txt

robots.txt 是一个包含网站索引参数的文本文件,供搜索引擎的机器人使用。

Yandex 支持具有高级功能的 Robots Exclusion 协议。

当抓取一个网站时,Yandex 机器人会加载 robots.txt 文件。如果对该文件的最新请求显示某个网站页面或部分被禁止,机器人就不会索引它们。

Yandex robots.txt 文件的要求

Yandex 机器人可以正确处理 robots.txt,但是需要满足以下要求:

  • 文件大小不超过 500KB。

  • 它是一个名为 "robots "的TXT文件, robots.txt。

  • 该文件位于网站的根目录中。

  • 该文件可供机器人使用:托管网站的服务器以 HTTP 代码回应,状态为 200 OK。检查服务器的响应

如果文件不符合要求,该网站被认为是开放索引的,也就是 Yandex 搜索引擎可以任意访问网页内容。

Yandex 支持从位于一个网站的 robots.txt 文件重定向到位于另一个网站的文件。在这种情况下,目标文件中的指令被考虑在内。这种重定向在移动网站时可能很有用。

Yandex 访问 robots.txt 的一些规则

在 robots.txt 文件中,机器人会检查以 User-agent: 开头的记录,并寻找字符 Yandex(大小写不重要)或 *。如果 User-agent: Yandex 字符串被检测到,User-agent: * 字符串会被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被发现,机器人将被视为具有无限的访问权限。

你可以为 Yandex 机器人输入单独的指令。

例如下面的一些示例:

User-agent: YandexBot # 用于索引爬虫的写法
Disallow: /*id=

User-agent: Yandex # 将会对所有 YandexBot 起效
Disallow: /*sid= # 除了主要的索引机器人

User-agent: * # 对 YandexBot 不会起作用
Disallow: /cgi-bin 

根据标准,你应该在每个 User-agent 指令前插入一个空行。#字符指定了注释。在这个字符之后的所有内容,直到第一个换行,都将被忽略。

robots.txt Disallow 与 Allow 指令

Disallow 指令,使用此指令禁止索引站点部分或单个页面。例子:

  • 包含机密数据的页面。

  • 带有站点搜索结果的页面。

  • 网站流量统计。

  • 重复页面。

  • 各种日志。

  • 数据库服务页面。

下面是 Disallow 指令的示例:

User-agent: Yandex
Disallow: / # 禁止对整个网站进行抓取

User-agent: Yandex
Disallow: /catalogue # 禁止抓取以 /catalogue 开头的页面。

User-agent: Yandex
Disallow: /page? # 禁止抓取含有参数的 URL 的页面

robots.txt Allow 指令

该指令允许索引站点部分或单个页面。下面是示例:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# 禁止索引任何页面,除了以'/cgi-bin'开头的网页

User-agent: Yandex
Allow: /file.xml
# 允许索引 file.xml 文件

robots.txt 组合指令

相应的用户代理块中的 Allow 和 Disallow 指令会根据 URL 前缀长度(从最短到最长)进行排序,并按顺序应用。如果有几个指令与一个特定的网站页面相匹配,机器人会选择排序列表中的最后一个指令。这样,robots.txt 文件中指令的顺序就不会影响机器人使用它们的方式。

# robots.txt 文件示例:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# 禁止索引以 '/catalog' 开头的页面
# 但是可以索引以 '/catalog/auto' 开头的页面地址

总结

以上是关于 Yandex 爬虫对于 robots.txt 的一些规则写法,可以通过指定配置,允许或禁止 Yandex 爬虫抓取或禁止抓取页面。

参考资料

点赞
收藏
评论区
推荐文章
3A网络 3A网络
1年前
网站优化(一)—— 从何处着手开启网站优化?
网站优化(一)——从何处着手开启网站优化?网站优化是指使用工具、高级策略和实验来提高网站性能,从而推动流量增加转化率和增加收入的过程。搜索引擎优化(SEO)是常见的一种网站优化方式,它可以帮助网站的各个页面在特定关键字的SERP(搜索引擎结果页面)中排名靠前,让用户在百度、谷歌等搜索时先看到你的网站。如果想要进一步优化网站,让用户体验更好,那是一个很
把帆帆喂饱 把帆帆喂饱
2年前
爬虫
爬虫什么是爬虫使用编程语言所编写的一个用于爬取web或app数据的应用程序怎么爬取数据1.找到要爬取的目标网站、发起请求2.分析URL是如何变化的和提取有用的URL3.提取有用的数据爬虫数据能随便爬取吗?遵守robots.txt协议爬虫的分类通用网络爬虫百度,Google等搜索引擎,从一些初识的URL扩展到整个网站,主要为门户站点搜索引擎和大型网站服务采
Stella981 Stella981
2年前
Nginx优化防爬虫 限制http请求方法 CDN网页加速 架构优化 监牢模式 控制并发量以及客户端请求速率
Nginx防爬虫优化Robots协议(也称为爬虫协议,机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。我理解的是robots.txt是通过代码控制搜索引擎蜘蛛索引的一个手段,以便减轻网站服务器的带宽使用率,从
yandexbot ip 地址段
是Yandex的搜索引擎的爬虫。Yandex是一家俄罗斯互联网公司,在俄罗斯经营最大的搜索引擎,在该国拥有约60%的市场份额。截至2012年4月,Yandex排名全球第五大搜索引擎,每天有超过1.5亿次搜索,访客超过2550万。经常有网友问我如何屏蔽yandexbot,或者如何查询yandexbotiprange(yand
yandex bot user agent
网站收集和整理了所有的,方便大家识别yandexbot。yandexbotuseragent列表Mozilla/5.0(compatible;YandexAccessibilityBot/3.0;http://yandex.com/bots)说明:YandexAccessibilityBot下载页面以检查用户的可访问性。它每秒最多向站
block yandex bot
是Yandex搜索引擎的爬虫。在这篇文章中,我总结了所有的Useragent,通过那篇文章,我们可以看出有些Yandexbot遵守,有些不遵守robots.txt协议。我们需要屏蔽yandexbot(blockyandexbot)可以通过robots.txt和IP的方式屏蔽,下面分别来讲。通过robots.txt
如何屏蔽 YandexBot
我们经常会受到大量的访问,我们知道YandexBot是Yandex的搜索引擎的。大量的YandexBot访问,不仅给服务器造成了非常大的压力,同时也会使正常访客访问网站变慢,影响体验。基于以上原因,我们不得不限制YandexBot的访问,但是需要注意的一点:限制Yandex访问会损失Yandex带给我们的流量,由于限制了Yand
京东云开发者 京东云开发者
4个月前
从ClickHouse通往MySQL的几条道路 | 京东物流技术团队
一、应用背景简介ClickHouse是Yandex(俄罗斯最大的搜索引擎)开源的一个用于实时数据分析的基于列存储的数据库,其处理数据的速度比传统方法快1001000倍。ClickHouse的性能超过了目前市场上可比的面向列的DBMS,每秒钟每台服务器每秒处
你需要知道的 10 大互联网爬虫
机器人和僵尸网络通常与网络犯罪分子窃取数据、身份、信用卡号码和更糟糕的情况有关。但是,机器人也可以有好的目的。将好的机器人与坏的机器人区分开来,也可以在保护你公司的网站和确保你的网站获得应有的互联网流量方面发挥很大作用。大多数好的机器人基本上都是世界上最大的网站派出的爬虫,为其搜索引擎和社交媒体平台索引内容。你想让这些机器人访问你。它们会给你带来更多的访问量
什么是网络爬虫?
什么是网络爬虫网络爬虫是一种在Internet上运行自动化任务的软件应用程序。与人类互联网活动相比,网络爬虫运行的任务通常很简单,并且执行速度要快得多。有些机器人是合法的——例如,Googlebot是Google用来抓取互联网并将其编入索引以进行搜索的应用程序。其他机器人是恶意的——例如,用于自动扫描网站以查找软件漏洞并执行简单攻击模式的机器人。