robot.txt对百度、搜狗、360、神马、Google等蜘蛛爬行禁止写法

以下规则允许百度、搜狗、360、神马、Google等蜘蛛爬行本站,禁止其它蜘蛛爬行。

User-agent:Baiduspider
Allow:/
User-agent:Sogou web spider
Allow:/
User-agent:360spider
Allow:/
User-agent:YisouSpider
Allow:/
User-agent:Googlebot
Allow:/

User-agent: *
Disallow: /
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-

以下允许所有蜘蛛爬行收录,其中百度蜘蛛特别限制。

User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-

User-agent: Baiduspider
Disallow: /page/
Disallow: /category/*/page/
Disallow: /tag/*/page/
Sitemap: https://www.monseng.com/sitemap.xml

说明:

User-agent: * 对所有搜索引擎开放收录
Disallow: /wp- 禁止搜索引擎收录所有包含“wp-”字样的url,如wp-admin、wp-content、wp-includes、wp-login.php等
Disallow: /? 禁止搜索引擎收录所有包含“?”字样的url
Disallow: /feed/ 禁止搜索引擎收录RSS订阅页面
Disallow: */feed/ 禁止搜索引擎收录所有分类目录、TAG、文章的RSS订阅
Disallow: */trackback/ 禁止收录所有分类目录、TAG、文章的trackback
User-agent: Baiduspider 以下规则仅针对百度蜘蛛
Disallow: /page/ 禁止百度收录首页分页,防止首页权重过于分散
Disallow: /category/*/page/ 同理,禁止百度收录分类目录分页
Disallow: /tag/*/page/ 同理,禁止百度收录TAG标签分页
Sitemap: https://www.monseng.com/sitemap.xml  WordPress robots.txt文件增加Sitemap链接方法

robot.txt中是对君子蜘蛛生效,一些不守规则的匿名爬虫可以绕过并不遵守这一规则。

#现在前往

精选留言

robot.txt,百度,搜狗,神马
sample
2021-01-28
写留言
签到
投稿
QQ咨询
返回顶部