介绍搜索引擎抓取不到的内容

开发 前端
搜索引擎抓取不到的内容有那些。没有搜索引擎是万万不能的,但搜索引擎不是万能的。来看本文。

有些内容,网上明明存在,但是你用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,你就可以设计更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最关键的一步。

这样的内容,主要有3类:

1、网上有,但是搜索引擎库里没有

1.1 spider未能正确处理的网页性质及文件类型(如flash、script、ps、某些动态网页及frame、数据库)

1.2 没有指向链接的孤岛网页

1.3 spider访问时因为某些原因正好是死链接

1.4 被认为是劣质网页而不抓

1.5 因为/色情/反动/spam/等问题而不抓的非法网页

1.6需要输入用户名、密码方可打开的网页

1.7 网站用robots协议拒绝搜索引擎抓取的网页

1.8 搜索引擎还未来得及抓取的新网页

1.9 gopher、newsgroups、Telnet、ftp、wais等非http信息

1.10 网站数据库做得太差劲,spider一抓就宕,只好不抓

2、搜索引擎库里有,但是未能正确索引网页中信息

2.1 分词引起误差

2.2 图型中的文字信息你看得懂但搜索引擎看不懂

2.3 停用词等搜索引擎故意不索引的信息

2.4 搜索引擎对某些网页有选择的索引,未索引全部网页信息

3、搜索引擎正确索引了网页中信息,但和你用的关键词不同

3.1 你用的搜索关键词中含有错别字

3.2 网页作者用了错别字

3.3 没有错别字,但网页作者用的词汇和你的关键词不同,毕竟,文字的特性,允许有n种方式表达同一种信息

3.4 简体繁体不同编码

希望本文对你有帮助。

【编辑推荐】

  1. 四个方面 让你学会分析网站
  2. 做好seo 需具备的好习惯
  3. 建设高质量外链之时刻反思四个问题
  4. 分享提高网站流量的十大方法
  5. 谈SEO之内链布局的重要性
责任编辑:于铁 来源: 互联网
相关推荐

2010-04-20 11:43:46

2011-06-22 17:28:51

SEO

2011-06-20 18:23:06

SEO

2011-07-06 18:23:15

SEO

2011-07-01 15:51:20

SEO

2009-02-19 09:41:36

搜索引擎搜狐百度

2009-09-22 16:23:52

搜索引擎

2020-03-20 10:14:49

搜索引擎倒排索引

2017-08-07 08:15:31

搜索引擎倒排

2016-12-26 13:41:19

大数据搜索引擎工作原理

2010-06-13 16:27:28

搜索引擎

2012-09-07 13:22:21

搜索搜狗

2022-10-08 09:13:18

搜索引擎⽹站

2011-11-15 08:40:17

百度

2012-05-14 11:01:50

搜索引擎微软

2020-08-10 14:39:30

搜索引擎

2020-02-24 08:52:08

开源索引YaCy

2015-08-31 10:41:58

搜索引擎Google云应用

2009-12-10 15:09:46

PHP搜索引擎类

2011-06-03 10:19:53

点赞
收藏

51CTO技术栈公众号