今天需要学习爬虫了(前期准备)

爬虫?crawler,按照一定规则来爬取网络上的信息的程序或者脚本。它可不是普通的虫子哟,切记切记切记!

爬虫就是获取信息的,那么你没学习之前,你会如何获取互联网信息呢?或许你会想直接找度娘,一切问题迎刃而解,

是的,你这样确实可以,如果你需要网页上的数据,超链接的数据,手动去弄会很累的,爬虫就能很好的实现自动化获取信息。

 

废话太多了,那么爬虫开始之前,我们需要做什么准备工作?

你不可能直接看到需求就开始写代码把,肯定先分析一波,理清一下思路呀,那么爬虫你首先要去网页的页面去分析,请求行为分析,这些确定之后,那么你可以写爬虫了。

那么怎么来分析网页页面呢?

一般我们是借用浏览器来分析。

我们打开如上图所示的界面,右击选择检查元素,这里选用的是谷歌浏览器

打开之后,我们可以查看我们的请求行为,在网络里面可以查看的

 

 

右边有元素(请求的页面描述),控制台(调试用的),调试程序,网络(可以查看请求头信息和响应头信息)等

请求头描述了客户端向服务器发送请求时使用的http协议类型,所使用的编码,以及发送内容的长度等等

相应的响应头用来描述服务器回给你对所返回的content的一些一些描述,我是什么服务器,我返回的是啥编码,我返回的内容有多长等等。

 

爬虫基本流程就是爬取-存储-分析,涉及的内容如下,后面会一一介绍

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值