首页 > SEO顾问>网站优化 > 网站Robot文件的写法详细讲解​

网站Robot文件的写法详细讲解​

济南SEO培训 网站优化 2018-05-28 0 网站Robot文件 Robot文件 Robot文件的写法

在此之前,非言在seo优化入门知识篇章中,简单的介绍了一下网站Robot文件的基础概念,有需要温故了解的小伙伴,可以点击这里进行查看《什么是网站robot文件,robot文件该怎么设置?》。

接下来的内容,非言要说的是关于网站robot文件的详细设置,以及更多的详细规则语法。

首先,网站的robots.txt文件是放置在网站根目录下的。举个简单的例子,当搜索引擎蜘蛛访问一个网站时(比如HTTPS://0531so.cn),蜘蛛首先会检查该网站中是否存在https://0531so.cn/robots.txt这个文件,如果找到了这个文件,蜘蛛就会根据这个文件的规则内容,来确定它的访问权限范围,如果没有这个文件,那就表示没有任何限制,蜘蛛可以爬行到任何一个目录里面去。

其次,非言就来简单总结一个robots.txt的规则格式,这些规则格式都有一定的规律可循,自己总结一下,印象会更深。

User-agent:

这个值时用于描述搜索引擎robot名字的。在这个”robots.txt”文件中,如果里面有多个User-agent记录,则说明有多个robot要受到”robots.txt”的限制。对该文件来说,至少要有一条User-agent记录。

如果其值设为*,则对任何robot均有效。

在“robots.txt”文件中,“User-agent:*”这样的记录只能有一条。

如果在“robots.txt”文件中,加入“User- agent:SomeBot”和若干Disallow、Allow行,那么名为“SomeBot”只受到“User-agent:SomeBot”后面的Disallow和Allow行的限制。

Disallow的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。

例如“Disallow: /help”禁止robot访问/help*.html、/help/index.html, 而“Disallow: /help/”则允许robot访问/help*.html,不能访问/help/index.html。

"Disallow: "说明允许robot访问该网站的所有url,在“/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。

例如“Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的 Allow或Disallow行确定是否访问某个URL。

使用“*”和“$”:Baiduspider支持使用通配符“*”和“$”来模糊匹配url。“$”匹配行结束符。“*”匹配0或多个任意字符。

robots.txt文件用法举例:

1. 允许所有的robot访问

User-agent: *
Allow: /

或者

User-agent: *
Disallow:

2. 禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider
Disallow: /

4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Disallow:

5. 禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

6. 允许访问特定目录中的部分url

User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

7. 使用”*”限制访问url,禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

User-agent: *
Disallow: /cgi-bin/*.htm

8. 使用”$”限制访问url,仅允许访问以”.htm”为后缀的URL。

User-agent: *
Allow: .htm$
Disallow: /

9. 禁止访问网站中所有的动态页面

User-agent: *
Disallow: /*?*

10. 禁止Baiduspider抓取网站上所有图片,仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

11. 仅允许Baiduspider抓取网页和.gif格式图片,允许抓取网页和gif格式图片,不允许抓取其他格式图片。

User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$

12. 仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider
Disallow: .jpg$


版权声明

该内容为[济南SEO培训]原创内容,如若二次转载,请注明出处:https://www.seo688.net/html/show23.html

上一篇: 暂时没有了!

济南非言SEO688-专业的网站优化顾问

五年SEO实战经验,精通搜索引擎主流算法!

https://www.seo688.net/

站长统计 | 鲁ICP备15018988号-8

使用手机软件扫描微信二维码

关注非言SEO可获取更多优化资讯