404错误页面阻碍和改进网站优化

HTTP404或notfound错误信息是HTTP的标准响应信息(HTTP状态码)之一,也就是说,当客户端浏览网页时,服务器无法正常提供信息,或者服务器无故无法响应。

1.许多网站不可避免地存在死链接,但死链接的概率很高,这将影响搜索引擎对网站的评级。

2.搜索引擎每天抓取每个网站的频率。如果网站上有很多死链接,会浪费抓取配额,影响正常页面的抓取。

3.死链太多也是网站用户的糟糕表现。

百度站长工具有抓取异常,那么这个工具是如何产生异常数据的呢?

编辑错误或程序员粗心地使页面产生不存在的页面。

由于服务器、空间或程序问题,网站暂时无法访问,导致大量服务器错误页面返回500个代码。

当单个爬虫程序提取页面网址时,它们只提取网址的一部分或正常网址后的文本或字符。

站点修改时,未经301跳转到相应页面直接删除旧页面,或301跳转后部分旧页面无法访问。

网站管理员删除黑色、广告、过期和浸水的页面,导致许多死链接。

网页异常中的许多错误页面是由程序员的疏忽或程序问题引起的。它们应该是普通页面,因为它们不能被访问,因为它们是错误的。请尽快修复这样的页面。

404错误页面阻碍和改进网站优化。

但一定有很多错误的网页不应该存在,因此我们需要找到一个方法来获页面URL的方法,主要有以下三种:

(1)百度站长工具-抓取异常-找不到页面-复制数据[修复:这里不需要提交死链,百度站长工具会自动提交死链];

(2)删除网页时,管理员手动或自动保存被删除网页的URL;

(3)使用相关爬虫软件爬虫整个网站,获取死链,如Xenu。

然后将上述处理过的数据粘贴到网站根目录下的文档中,并将文档地址提交给百度站长工具-网页抓取-死链接提交-添加新数据-填写死链接文件地址。

如果大量错误的网址有一些规则,规则可以写在机器人文件中,以防止爬行器获得此类链接,但前提是正常页面应该妥善处理,以避免规则损坏正常页面。

向robots文件添加规则后,必须到百度站长的robots工具进行验证,将指定的错误页面放入,检查截取是否成功,然后将正常页面放入,检查是否被错误截取。

有关注意事项:

1.在百度站长工具中提交死链接之前,请确保提交的死链接数据中没有活链接。一旦有活动链,就会显示提交失败,无法删除。

2.由于很多网站程序的问题,很多不能打开的页面返回码都不是404,这是一个很大的问题。比如不能打开的页面返回码是301、200、500。如果是200,不同的网站会出现在网站上,得到同样的内容。比如在我的一个网站上,社区帖子被删除后,返回代码其实是500。后来发现了,马上处理。试着找出所有错误的URL格式,把HTTP状态代码设置为404。

3.找到所有错误的页面后,一定要找到这些页面的URL的相同特征,区分它们和普通页面的特征。将相应的规则写入机器人文件,禁止spider获取。即使你已经在网站管理员工具中提交了死链,建议机器人拦截并抓取它们。

4.机器人只能解决蜘蛛不再抓取这类页面的问题,但不能解决删除包含页面快照的问题。如果你的网站是黑色的,黑色的页面被删除,除了机器人禁止的黑色页面,这些页面也应该提交给死链。


上一篇:​探索搜索引擎判断外链质量的法宝

下一篇 : 404页http状态码返回200正常吗?