头疼,我好想哭,却哭不出来……好难啊!莫名其妙……。昨天折腾了一天的站点Robots,结果又掉坑里了,现在百度站长平台进行抓取诊断,一直提示Robots封禁,但是使用Robots检测,又一切正常,现在百度蜘蛛爬行数量大幅度下滑,头都大了……?……真的是哭晕在厕所的节奏。

误操作导致Robots封禁了百度蜘蛛
说是误操作,其实还不太是,因为Robots.txt文件里的禁止百度蜘蛛抓取,还是我自己写的……怪只能怪,打脸来的太快吧。我为什么要在Robots.txt文件里禁止百度蜘蛛抓取呢?这又要从新浪微博图床说起了,自从12月28号微博图床挂了之后,小编就快速的将图床内的图片下载到了本地服务器,然后通过WPJAM插件集成的CDN加速功能,将这些图片镜像存储到了火山引擎veImageX图片服务。
但是在使用了火山引擎veImageX图片服务之后,小编注意到,在火山引擎veImageX图片服务绑定的加速域名,居然不只是可以访问图片内容,还可以代替网站现有的网址,进行网站访问。

上图,是小编访问本站火山引擎veImageX加速域名后的效果,虽然图片都没进行加载,但是他确确实实是可以代替我们的网址“66fxw.com”进行网站访问了,叔可忍婶子不能忍啊,要知道这种一个站点存在多个网址的形式,从SEO优化的角度看是会造成网站权重分散的,而且搜索引擎对于这种形式的网站惩罚为轻则降权,重则K站。

真要命啊,于是小编就通过工单形式马上联系了火山引擎veImageX的工作人员,工作人员告诉我,我可以在本地服务器创建一个Robots.txt文件,然后火山引擎veImageX刷新缓存,将在本地服务器编译好的禁止搜索引擎抓取的Robots.txt文件,拉取到火山引擎veImageX的各个加速节点上。

知道了解决方案,那我们就快速开始操作起来吧,于是小编就在网上找到了一篇来自业界大神张戈的关于云存储Robots.txt该如何写的内容,并将大神张戈编译好的规则复制到了本地服务器创建好的Robots.txt文件里。然后在火山引擎veImageX刷新缓存,拉取本地服务器创建好的Robots.txt文件。别说,这个操作还真把本地服务器创建好的Robots.txt文件拉取到了火山引擎veImageX的各个加速节点上。

但是悲剧也就在此时接憧而至,为什么这么说?因为当我将Robots.txt文件拉取到火山引擎veImageX的各个加速节点上之后,我在百度站长平台对Robots.txt文件进行测试发现,居然抓取诊断一直提示抓取失败,而且具体原因是Robots封禁……见鬼了……搞什么飞机啊……难道张戈大神写的Robots规则有问题?
算了,不管了,先把Robots.txt文件恢复成原来的看看行不行吧,于是再次在火山引擎veImageX刷新缓存,将原来的Robots.txt文件拉取到火山引擎veImageX的各个节点上。然后回到百度站长平台进行抓取测试,结果依然是Robots封禁……啊……真让人抓狂啊……什么情况啊。

百思不得其姐的小编,于是又开始展开了研究,我分析后觉得可能是Robots的写法有问题,网上由内容说Disallow: /不加后面的 /,只写Disallow: 就是允许蜘蛛抓取,但是小编也不知道这是不是对的, 反正通过站长工具测试Robots.txt文件显示是禁止访问,于是我又将Disallow: /改成了Allow: /,因为Allow: 是我在百度站长查到的Robots.txt允许访问的语法。

修改好以后,再次刷新缓存,将Robots.txt文件拉取到加速节点,现在我在本地查看Robots.txt文件是完全正确了,而且在工单里联系火山引擎veImageX的工作人员,也说这个文件没问题。但是在百度站长平台进行抓取诊断,Robots封禁问题依然存在,网站也没见蜘蛛恢复从前的抓取状态。着实无从下手了。

结语
现在小编是彻底的无能为力了,只能寄望于奇迹发生了,如果等待还是无法恢复百度蜘蛛的抓取,小编也只能选择放弃使用火山引擎veImageX了,因为问题一定是出在火山引擎veImageX,具体出在哪里我虽然还不清楚,但是我敢肯定,因为我们最早使用新浪微博图床时,一切都很正常,现在使用的也是以前的Robots.txt文件,而且我坚信停止使用火山引擎veImageX后,将所有图片使用本地访问的话,Robots封禁的问题一定会消失。


微信扫一扫
支付宝扫一扫

