在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程(下篇)

开发 后端
前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程(上篇),没来得及上车的小伙伴可以戳进去看看,今天继续上篇的内容往下进行。

 /前言/

前几天给大家分享了在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程(上篇),没来得及上车的小伙伴可以戳进去看看,今天继续上篇的内容往下进行。

 

/具体实现/

9、根据点赞数采集的方法,我们可以很快的定位到收藏数,其对应的网页结构稍微有些不同,但是分析方法是一致的,不再赘述,如下图所示。

10、这里直接给出调试的代码,如下图所示。

11、不过我们需要的是其中的数字,这时候就可以利用正则表达式进行匹配,关于正则表达式的文章,之前有过连载,不熟悉正则表达式的小伙伴可以翻看历史文章,有详细说明的。在Pycharm中进行调试,代码也很简单,如下图所示。

尔后将该代码放入到爬虫主体文件中即可,记得将“15 收藏”这部分替换成collection_num即可。

12、评论数相对简单一些,其有专门的一个标签,如下图所示。

13、需要注意的是评论数这里的标签不是class,而是href,需要和网页上对应,否则取出的值为空列表。

14、同收藏数一样,仍然要以正则表达式的形式去匹配数字,可以直接复制收藏数的代码,然后将收藏数collection_num改为评论数的comment_num即可。

15、关于正文的提取,不同的网页有不同的结构,而且相对复杂,这里不做细究,整体目标是将网页内容和标签均提取出来。分析网页结构,发现正文内容在“entry”标签下,如下图所示。

\

16、之后在scrapyshell调试,可以得到内容的Xpath表达式,如下图所示。

17、到这里,该网页中的信息提取的差不多了,结合上面的分析和Xpath表达式,我们得到的整体代码如下图所示。


18、尔后进行Debug调试,查看代码中获取的内容,如下图所示,十分清晰。


19、下图是控制台部分显示出的变量结果,与代码中显示的内容和网页上的信息都是保持一致的。

至此,关于Xpath表达式的具体应用教程先告一段落。总体来看,我们需要利用F12快捷键来审查网页元素,尔后分析网页结构并进行交互,然后根据网页结构写出Xpath表达式,习惯性的结合scrapy shell进行调试,得到调优的表达式,写入爬虫文件中去,最后执行爬虫程序或者Debug调试查看最终的数据采集结果。

 

/小结/

本文基于Xpath理论基础,主要介绍了Scrapy爬虫框架中利用Xpath选择器提取某个网页中目标数据的方法,结合scrapy shell进行调试,得到调优的表达式,写入爬虫文件中去,希望对大家的学习有帮助。

想学习更多关于Python的知识,可以参考学习网址:http://pdcfighting.com/,点击阅读原文,可以直达噢~

责任编辑:姜华 来源: Python爬虫与数据挖掘
相关推荐

2020-10-25 08:06:08

Scrapy

2020-10-21 08:49:17

Scrapy

2020-10-29 09:25:34

Scrapy

2010-09-03 09:30:29

CSS选择器

2015-11-17 09:37:52

网页设计黄金比例

2012-01-04 11:09:10

Java采集器

2023-07-28 08:23:05

选择器Java NIO

2020-11-11 10:58:59

Scrapy

2011-06-17 13:39:47

Qt 文件

2019-11-19 15:43:07

人工智能软件技术

2012-04-16 14:32:31

iOS选择器代码

2010-09-07 12:56:49

id选择器CSS

2011-07-07 17:30:25

iPhone Xcode

2023-11-30 08:36:10

选择器链接设计

2023-11-29 10:16:24

ScrapyPython

2009-07-16 17:06:55

JSP网页中JDBC代

2010-09-14 14:10:36

CSS样式表

2009-05-14 10:44:54

JQuery特殊字符ID选择器

2017-10-18 17:52:50

2011-11-28 13:42:55

Sencha Touc组件选择器
点赞
收藏

51CTO技术栈公众号