HTTP404或notfound错误信息是HTTP的标准响应信息(HTTP状态码)之一,也就是说,当客户端浏览网页时,服务器无法正常提供信息,或者服务器无故无法响应。
1.许多网站不可避免地存在死链接,但死链接的概率很高,这将影响搜索引擎对网站的评级。
2.搜索引擎每天抓取每个网站的频率。如果网站上有很多死链接,会浪费抓取配额,影响正常页面的抓取。
3.死链太多也是网站用户的糟糕表现。
百度站长工具有抓取异常,那么这个工具是如何产生异常数据的呢?
编辑错误或程序员粗心地使页面产生不存在的页面。
由于服务器、空间或程序问题,网站暂时无法访问,导致大量服务器错误页面返回500个代码。
当单个爬虫程序提取页面网址时,它们只提取网址的一部分或正常网址后的文本或字符。
站点修改时,未经301跳转到相应页面直接删除旧页面,或301跳转后部分旧页面无法访问。
网站管理员删除黑色、广告、过期和浸水的页面,导致许多死链接。
网页异常中的许多错误页面是由程序员的疏忽或程序问题引起的。它们应该是普通页面,因为它们不能被访问,因为它们是错误的。请尽快修复这样的页面。
404错误页面阻碍和改进网站优化。
但一定有很多错误的网页不应该存在,因此我们需要找到一个方法来获页面URL的方法,主要有以下三种:
(1)百度站长工具-抓取异常-找不到页面-复制数据[修复:这里不需要提交死链,百度站长工具会自动提交死链];
(2)删除网页时,管理员手动或自动保存被删除网页的URL;
(3)使用相关爬虫软件爬虫整个网站,获取死链,如Xenu。
然后将上述处理过的数据粘贴到网站根目录下的文档中,并将文档地址提交给百度站长工具-网页抓取-死链接提交-添加新数据-填写死链接文件地址。
如果大量错误的网址有一些规则,规则可以写在机器人文件中,以防止爬行器获得此类链接,但前提是正常页面应该妥善处理,以避免规则损坏正常页面。
向robots文件添加规则后,必须到百度站长的robots工具进行验证,将指定的错误页面放入,检查截取是否成功,然后将正常页面放入,检查是否被错误截取。
有关注意事项:
1.在百度站长工具中提交死链接之前,请确保提交的死链接数据中没有活链接。一旦有活动链,就会显示提交失败,无法删除。
2.由于很多网站程序的问题,很多不能打开的页面返回码都不是404,这是一个很大的问题。比如不能打开的页面返回码是301、200、500。如果是200,不同的网站会出现在网站上,得到同样的内容。比如在我的一个网站上,社区帖子被删除后,返回代码其实是500。后来发现了,马上处理。试着找出所有错误的URL格式,把HTTP状态代码设置为404。
3.找到所有错误的页面后,一定要找到这些页面的URL的相同特征,区分它们和普通页面的特征。将相应的规则写入机器人文件,禁止spider获取。即使你已经在网站管理员工具中提交了死链,建议机器人拦截并抓取它们。
4.机器人只能解决蜘蛛不再抓取这类页面的问题,但不能解决删除包含页面快照的问题。如果你的网站是黑色的,黑色的页面被删除,除了机器人禁止的黑色页面,这些页面也应该提交给死链。
推荐文章
- 采用多样化的网页加载措施来解决网站优化速度问题。2022-06
- 学会分析外链质量,制定准确的SEO外链策略。2022-06
- 介绍了反向链接与外链的区别与查询方式。2022-06
- 10个平台和方法共享和交换高质量的友情链接。2022-06
- 【新站脱离百度考察期】善用优质内容+优质外链,让新站度过百度考察期。2022-06
- 为什么做页面优化要用静态,静态优化的好处。2022-06
- 介绍企业营销网站早期SEO优化方法。2022-06
- SEO站长坚持SEO优化的目的和意义。2022-06
- SEO优化小白如何将所学的优化知识应用到优化实践中。2022-06
- 网站优化链接:介绍网站标签的选择和布局。2022-06
- 分享搜索引擎抓取手机终端图片的方法。2022-06
- 分析网站白天有快照,晚上没有快照的原因及解决方法。2022-06
- 如何发送SEO外链来提升网站权重?2022-06
- 只要符合修改网站SEO标题的规则,网站就不会降权。2022-05
- 用什么方法可以提高搜索引擎蜘蛛爬行网站的频率。2022-05
- 域名注册信息会不会网站搜索引擎优化排名?2022-05
- 分析付费渠道与免费渠道的区别和优势。2022-05
- 网站内部链接重要吗?如何操作网站内部优化?2022-05