WordPress最佳的robots.txt规则

WordPress最佳的robots.txt规则

 

在了解WordPress 网站的robots文件写法之前,先来了解下robots.txt 的基本写法

1.User-agent:

表示定义哪个搜索引擎,如User-agent:Baiduspider,定义百度蜘蛛。

2.Disallow:

表示禁止访问。

3.Allow:

表示运行访问。

通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。

4.*$的使用规则:*表示通配符

例如:Disallow: /cgi-bin/*.htm

表示禁止收录cgi-bin文件夹下的所有htm后缀的文件。

或者

Disallow: /*?post=

表示禁止收录含有“post=”字符的地址。

$用于通指禁止访问某后缀的文件

例如:Disallow: /*.css$

表示禁止收录以css后缀的文件。

5.Sitemap规则:Sitemap用来告诉搜索引擎网站地图的位置

例如:Sitemap: https://miaonav.com/sitemap.xml

网站哪些地方需要使用robots协议

  1. 无用页面,很多网站都有“联系我们”、“关于我们”等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时需要使用Disallow命令禁止这些页面被搜索引擎抓取。
  2. 动态页面,屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。
  3. 网站后台页面,网站后台也可以归类为无用页面,禁止收录有百益而无一害。

通过以上我们知道robots.txt文件的基本写法和哪些地方需要使用robots协议,那针对WordPress程序搭建的网站,robots.txt如何写呢?

禁止收录WordPress系统文件:

User-agent: *
Disallow: /wp-admin/ 
Disallow: /wp-content/ 
Disallow: /wp-includes/

禁止收录重复的内容、动态页面、以及trackback等垃圾信息:

Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /attachment/

综合上述的写法如下:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /attachment/
Disallow: /comments/feed
Disallow: /feed
Disallow: /*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php

Sitemap: https://miaonav.com/sitemap.xml

最后将代码编写在记事本上,然后保存为robots.txt文件,通过FTP上传到网站的根目录就可以了;如需要检测robots协议是否正确生效,可以登陆百度站长平台进行Robots检测。

下面分别解释一下各项的作用:

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/

禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。

6、Disallow: /?s=*和Disallow: /*/?s=*\

禁止搜索引擎抓取站内搜索结果

7、Disallow: /*?*

禁止搜索抓取动态页面

8、Disallow: /attachment/

禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

 

总结:关于WordPress网站的robots.txt文件写法,笔者在本文已做分享,当然以上的只是提供参考,robots.txt文件还需要根据你网站的实际情况去写。

版权声明:喵了个咪 发表于 2020-10-01 12:41:53。
转载请注明:WordPress最佳的robots.txt规则 | 喵导航 | 一个主页,一个世界

暂无评论

暂无评论...