探讨百度快照的蜘蛛群假想理论问题

开发 前端
本文主要介绍的是对于百度快照每天不更新,而蜘蛛天天爬的原因。为大家分析蜘蛛群的理论。希望对你有帮助,一起来看吧!

对于很多新手站长来说,经常有这样的疑惑,为什么蜘蛛天天爬行,但是网站快照却不更新。今天冰山一角来给大家分享下一种蜘蛛假想。

蜘蛛群理论:百度每天都靠蜘蛛抓取页面,蜘蛛不是一只,而是一群。在一群蜘蛛中,它们各自负责不同的分工。具体的分工我也还了解不完全,可以知道的是分工可以分为新网页的爬行和旧网页的爬行。如123.125.*.*爬行新网页居多,61.135.*.*以爬行旧网页居多,百度还有其他ip段的蜘蛛,我对福州现代妇产医院网的观察,这2类比较常见。

网站快照更新最快的当属首页,不是首页的话你可能被K了,因为首页权重最高,而且都会调用最新内容,也最容易被蜘蛛发现。刚刚所说的蜘蛛是一群,所以任何一只蜘蛛都是不会在一个网站一直呆着,所以虽然说百度蜘蛛天天呆在你的网站,但不见得群蜘蛛都一直呆在你的网站。

蜘蛛在进驻你的网站后,开始各自分配不同的监控区域,有的蜘蛛负责head,有的蜘蛛负责root,有的负责body等等,body里面又有不同的蜘蛛干不同的事。也就是说同一只蜘蛛只负责小块区域,而且只会在一天的某些时段来过,当它发现你有更新的话,明天再来,如果没有的话给你个304,,304多了,它就会去减少爬行的频率,具体频率长什么样我也不清楚,理论模型应该是正弦曲线。

同理,所有的蜘蛛使用同一规则的话,就会出现监控head、root等区域的蜘蛛比较懒,body部分的比较勤快,不过,body中间也有懒惰的。

如果你的网站天天更新,那么body更新区域的都是200,其他的是304.那么百度要考虑给你最新的快照呢还是不给?于是就要投票表决,因为是群蜘蛛嘛,蜘蛛们都有投票权,才显得公平,但是又有一个问题,蜘蛛的分量不同,如body区的蜘蛛,工作比较辛苦,head区就比较轻松,所以蜘蛛投票需要分权,body的蜘蛛权值高,root区的权值低,当然中间还有不等的权值。

经加权后的计算结果来决定百度给不给该网站最新快照。这就是为什么网站天天更新但是快照不更新的原因之一。

这样一来的话,我们可以从以下几个方面入手解决快照慢的问题,一个是让body的蜘蛛更勤快,提升带回200蜘蛛的权值,给投票带来优势。二是减少监控区,监控区域太多,那么无所事事的蜘蛛就越多,和我国的有关部门一样,所以我们要做到精简,那么拉后腿的蜘蛛就要说再见了。

下面来讲为什么百度会对改版的网站降权,原因其实很简单,原先进驻网站的蜘蛛因为只是负责小区域,当你改版后,它发现自己的区域没了,手足无措,于是百度就将蜘蛛召回,然后重新观察,放出蜘蛛观察员,然后再把网站分小块,改天再派蜘蛛进去,重新开始蜘蛛的工作,那么你的站就恢复正常了。

说了这么多,发现自己行文的风格变了,不过拟人化会更容易理解,希望对你有帮助。

【编辑推荐】

  1. 浅谈Seo优化的6个必经步骤
  2. 针对百度 SEO优化经验谈
  3. 浅谈网站做SEO要把握的几个核心元素
  4. 浅谈做seo的几种生存方式
  5. SEO新手分析竞争对手的22条思路
责任编辑:于铁 来源: 2008php.com
相关推荐

2011-06-19 11:48:27

百度蜘蛛

2011-06-21 17:13:07

SEO百度快照

2013-08-22 17:08:50

2014-07-25 17:12:39

数据库WOT2014MongoDB

2018-08-14 16:20:06

百度外卖损失

2020-12-03 06:13:46

iOS

2014-09-04 02:25:24

百度世界大会2014直达号BaiduEye

2012-03-23 12:12:37

百度开发者大会

2012-05-28 22:51:53

百度

2013-11-04 17:38:09

Clouda百度

2012-05-24 13:55:02

XML

2018-09-06 18:37:45

百度云

2016-03-25 11:18:23

中华网

2015-10-28 13:40:28

高仿百度糯米源码

2022-03-02 11:04:45

百度业务盈利

2011-06-01 17:40:29

百度收录

2011-12-08 15:31:24

百度开放平台

2013-06-27 10:23:30

百度云百度开放云

2012-10-19 09:47:30

百度云百度音乐云计算
点赞
收藏

51CTO技术栈公众号