如何利用Scrapy爬虫框架抓取网页全部文章信息(上篇)

开发 架构
本文主要介绍Scrapy爬虫框架抓取其中某个网页数据的理论

 前一阶段我们已经实现了通过Scrapy抓取某一具体网页页面的具体信息,关于Scrapy爬虫框架中meta参数的使用示例演示(上)、关于Scrapy爬虫框架中meta参数的使用示例演示(下),但是未实现对所有页面的依次提取。首先我们理一下爬取思路,大致思想是:当获取到第一个页面的URL之后,尔后将第二页的URL发送给Scrapy,让Scrapy去自动下载该网页的信息,之后通过第二页的URL继续获取第三页的URL,由于每一页的网页结构是一致的,所以通过这种方式如此反复进行迭代,便可以实现整个网页中的信息提取。其具体的实现过程将通过Scrapy框架来进行实现,具体的教程如下。

/具体实现/

1、首先URL不再是某一篇具体文章的URL了,而是所有文章列表的URL,如下图所示,将链接放到start_urls里边,如下图所示。

2、接下来我们将需要更改parse()函数,在这个函数中我们需要实现两件事情。

其一是获取某一页面所有文章的URL并对其进行解析,获取每一篇文章里的具体网页内容,其二是获取下一个网页的URL并交给Scrapy进行下载,下载完成之后再交给parse()函数。

有了之前的Xpath和CSS选择器基础知识之后,获取网页链接URL就变得相对简单了。

[[351630]]

3、分析网页结构,使用网页交互工具,我们可以很快的发现每一个网页有20篇文章,即20个URL,而且文章列表都存在于id="archive"这个标签下面,之后像剥洋葱一样去获取我们想要的URL链接。 


4、点开下拉三角,不难发现文章详情页的链接藏的不深,如下图圈圈中所示。


5、根据标签我们按图索骥,加上选择器利器,获取URL犹如探囊取物。在cmd中输入下图命令,以进入shell调试窗口,事半功倍。再次强调,这个URL是所有文章的网址,而不是某一篇文章的URL,不然后面你调试半天都不会有结果的。


6、根据第四步的网页结构分析,我们在shell中写入CSS表达式,并进行输出,如下图所示。其中a::attr(href)的用法很巧妙,也是个提取标签信息的小技巧,建议小伙伴们在提取网页信息的时候可以经常使用,十分方便。


至此,第一页的所有文章列表的URL已经获取到了。提取到URL之后,如何将其交给Scrapy去进行下载呢?下载完成之后又如何调用我们自己定义的解析函数呢?

欲知后事如何,且听下一篇文章分解。

/小结/

本文主要介绍了Scrapy爬虫框架抓取其中某个网页数据的理论,为后面抓取全网数据埋下伏笔,更精彩的操作在下篇文章奉上,希望对大家的学习有帮助。

想学习更多关于Python的知识,可以参考学习网址:http://pdcfighting.com/,点击阅读原文,可以直达噢~

 

责任编辑:姜华 来源: Python爬虫与数据挖掘
相关推荐

2020-10-29 09:25:34

Scrapy

2012-07-17 09:13:14

Scrapy

2020-10-25 08:06:08

Scrapy

2017-05-15 21:00:15

大数据Scrapy爬虫框架

2021-09-30 09:00:34

Scrapy网络爬虫Python

2018-08-08 11:40:24

ScrapyRequest网络爬虫

2021-01-08 09:07:19

Scrapy框架爬虫

2013-08-28 09:56:46

网页转化率

2017-04-06 11:12:38

JavaScriptGoogle爬虫

2017-09-16 17:45:32

数据采集Scrapy爬虫

2020-12-07 11:23:32

Scrapy爬虫Python

2021-04-12 07:36:15

Scrapy爬虫框架

2021-11-08 14:38:50

框架Scrapy 爬虫

2021-11-09 09:46:09

ScrapyPython爬虫

2021-06-26 10:03:35

Python框架Flask

2011-02-22 10:00:38

.NETc#IronPython

2020-10-21 08:49:17

Scrapy

2020-10-27 08:33:38

Scrapy

2021-05-18 13:25:28

feapder爬虫Python

2017-04-20 12:30:57

声明式爬虫网络
点赞
收藏

51CTO技术栈公众号