网络爬虫是啥玩意儿?有什么用呢?

开发
在这个用数据说话的时代,数据是一件极其重要的事情,怎样才能抓取到完整以及全面的数据呢?这并不是一件容易的事情。

 在这个用数据说话的时代,数据是一件极其重要的事情,怎样才能抓取到完整以及全面的数据呢?这并不是一件容易的事情。 

[[280211]]

如果想要做好大数据的分析,单单依靠一己之力或者是周边的数据是远远不够的,还需要借助“神秘的外部力量”。

这个时候,互联网上的资源就非常关键了,从网络上爬取数据资源,就成为了至关重要的一个环节。

那到底什么是网络爬虫呢?

网络爬虫也叫网络蜘蛛,即Web Spider,名字非常形象。 

如果把互联网比喻成一个蜘蛛网,那么Web Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,直到把整个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站,那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。

光是听起来就很有意思,那利用这等技术能做些什么好玩的事儿呢?

小编随意选取了部分知友的回答,大家感受下~~ 

@冰蓝

之前在北京买房,谁想房价开始疯长,链家的房价等数据分析只给了一小部分,远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫,爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。

@陈乐群

上次发现Android QQ和iOS QQ可以显示网络状态(2G/WiFi)之后,突然想到,这样子好像可以监视某人的出行和作息规律。简单的来说,在家里或者工作的地方,一般是有WiFi的,然后出门了,WiFi就断掉了。如果监测频率足够频繁,那么结合一定的推理,可以大致推测出一个人的行动。如果长期监视,那么可以大致推出一个人的作息时间。 

@柳易寒

我用爬虫爬了我爱白菜网、超值分享汇、发现值得买、惠惠购物、今日聚超值、留住你、买手党、没得比、慢慢买、牛杂网、买个便宜货、什么值得买、天上掉馅饼、一分网、折800值得买、值值值等网站的折扣信息。

这些网站都是提供的一些及时的、性价比较高的商品,很多时候要一个一个网站的看(重度用户),很容易就会错过一些很划算的商品。

@萝莉控夫斯基

我的爱人是某网络公司的销售,需要收集各种企业信息然后打电话联系。于是乎利用采集脚本抓一坨一坨的资料给她用,而她的同事天天自己搜资料整理到半夜。 

看完技术流网友的评论发现,网络爬虫似乎试一把双刃剑,既可以方便人们抓取数据,节省大量的时间与精力,但同时也会带来负面的影响,严重的甚至有可能犯罪哦!

不管是做什么事,一定要把握好尺度,因为技术是无罪的,人们可以用它的方便造福自己,利用不当的话,会毁了自己。

生活和工作中,大家应该要适当的保持谨慎,对于一些游走在法律边缘的事情,请保持距离。

在这里,小编温馨提示大家,技术是个好东西,可是要用到正道上哦~~

 

责任编辑:华轩 来源: 今日头条
相关推荐

2018-05-04 15:57:42

AI智慧谷歌

2018-01-26 08:54:29

存储SSDHDD

2010-06-29 13:39:26

Eclipse什么玩意儿

2010-06-28 15:58:45

EclipseJavaIDE

2010-07-05 15:56:01

EclipseRCPECF

2010-07-02 10:10:09

Eclipse

2011-11-21 10:25:29

iCloud

2021-12-13 19:57:05

JNDIJava开发

2022-07-08 15:13:21

DockerLinux命令

2021-05-17 18:27:20

Token验证HTTP

2022-05-10 09:16:50

MQ内存消费者

2022-03-14 17:56:15

云厂商系统阿里云

2022-02-07 09:40:10

高可用高并发高性能

2021-07-14 18:21:50

负载均衡TCP网关

2020-12-01 08:19:15

Redis

2009-11-04 10:11:50

威盛

2012-01-10 14:20:53

CES 2012

2020-09-23 09:18:22

IPV4IP地址网络协议

2023-03-06 08:18:49

程序员开源项目

2021-10-14 21:16:47

WebSocketCTO连接
点赞
收藏

51CTO技术栈公众号