几种开源网络爬虫的简单比较

开发 前端
本文主要介绍几种开源的网络爬虫的简单对比,方便大家对网络爬虫有所了解。

爬虫里面做的***的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表:

python

还有其他的一些比如Ubicrawler、FAST Crawler、天网蜘蛛等等没有添加进来。

之后主要研究下larbin爬虫,如果有可能会给它添加一个删除功能,因为其排重部分用的是bloom filter算法,这个算法的有点很明显,对大规模数据的处理很快,性能很好,而且内存占用很小,但是什么事都没有尽善尽美的,该算法的直接缺点就是不能删除,还会出现误判情况。关于bloom filter有很多相关论文,网上也有些高质量的文章,暂时不做累述,之后如果自己有不一样的看法,再写关于该算法的文章。

删除功能的算法暂时还不太确定,需要进一步了解,现在了解的counting bloom filter不错,带来的代价是内存占用高一点,园友们有什么建议和想法欢迎提出来哈!

原文链接:http://www.cnblogs.com/shapherd/archive/2011/03/16/crawler_cmp.html

【编辑推荐】

  1. 浅析Python中的列表解析和生成表达式
  2. 自制Python函数帮助查询小工具
  3. 巧用IronPython做更灵活的网页爬虫
  4. 浅谈Python Web的五大框架
  5. Python 3.2 RC3 发布 附下载
责任编辑:陈贻新 来源: ShaPherD
相关推荐

2009-08-28 10:47:46

Java EE容器

2012-05-10 13:42:26

Java网络爬虫

2017-08-09 15:27:33

python爬虫开发工具

2018-05-14 16:34:08

Python网络爬虫Scrapy

2011-04-08 15:19:04

开发工具开发

2018-05-23 09:15:54

存储接口协议

2010-08-24 11:03:43

2018-04-10 10:49:17

负载均衡算法服务器

2011-09-22 13:49:44

XML基准测试

2014-05-29 11:09:52

无线通信技术

2022-02-14 13:58:32

操作系统JSON格式鸿蒙

2018-02-23 14:30:13

2011-04-08 15:58:02

开发工具开发

2011-03-09 10:07:56

网络爬虫Java

2010-04-20 11:40:52

网络爬虫

2012-07-19 11:03:45

架构服务器架构架构模型

2024-04-22 08:33:55

ReactDiffObject.is

2012-03-28 16:24:12

开源协议比较

2009-12-25 15:01:43

ADSL宽带接入技术

2018-05-14 15:27:06

Python网络爬虫爬虫架构
点赞
收藏

51CTO技术栈公众号