最近众所周知的因素,博客除了固有的几个访客外,基本没有来自百度的访客了,索性趁势修改博客关键字等信息了(因为之前也有大动的想法一直没有实施),也因此导致Google过来的流量也下降了,虽然前几天Google抽的收录直接三万以上,好在现在恢复到了3000左右,但是收录再多,被索引到还是没有一点用,可谓收录不在于多,而在于精啊。

查看Google的收录信息,很大一部分是标签、分类、归档之类的。最近闲来无聊就在robots.txt里面限制了标签、分类、归档之类没必要收录的内容,但是一直没有效果,今天登陆Google的“网站管理员工具”,才恍然大悟,原来是我自己让Google纠结了。大家在发布一个新网站的时候,一般会配合一个最基本的XML Sitemap以更好的被搜索引擎索引,我的博客也不例外的从建立初期就安装了一个名为“XML地图生成器”的插件,主要用于生成Google可以认识的XML形式站点地图,这里我默认设置了标签、分类、归档、页面、文章和首页都包含,这样生成的站点地图就会包含博客所有全部的符合条件的内容了,并且之前我也在Google的“网站管理员工具”中提交过Sitemap了,Google的爬虫自然优先去爬Sitemap包含的内容了(个人认为)。

直至今天登陆工具,我才发现,原来robots.txt里面限制了标签、归档等不能收录,但是在Sitemap里面有这些内容,这样以来就让Google纠结了,到底是收录好呢?还是不收录好呢?于是,在网站管理员工具的站点地图详情中便看到了警告,就是Sitemap contains urls which are blocked by robots.txt.很明显,警告就是因为你的设置让爬虫不知所措,找到原因赶紧下手了,把Sitemap更新下,现在等待Google反应中。

其实Sitemap对于小网站来说没啥必要,Google的John Mueller在Google Webmaster Help里也回答了大家的疑虑:
1、要看网站的规模大小,你不是非要有一个Sitemap文件,我们也会自己索引到所有的内容。
2、当然,如果有一个Sitemap文件的话,你可以随时查看独立的URL地址是否已经正确被索引了。

也就是说对于小站来说,Google完全有能力在没有Sitemap的情况下索引到整个网站。如果你只是想查看URL地址是否被正确索引了的话,Sitemap当然可以做到,但对于小网站来说这样有点多此一举,因为你完全可以将自己的地址输入到Google去搜索来看看被收录的情况,因为你的网站压根也没几页嘛。

相反,不合理的Sitemap则会让Google收录不正常,小子认为,即使你设置robots.txt限制了某些目录等,Google还是会优先根据Sitemap爬网页的,不然网站管理员工具里面也不会出现警告Sitemap里的内容被robots.txt禁止的警告了。