爬虫的基本简述

什么是爬虫

就是一个自动向服务器请求数据的并提取程序

按F12或者单击鼠标右键,点审查元素,在Elements由网站源代码

爬虫的基本流程
1.发送请求

通过http库向目标站点发送请求,及发送一个Request,请求包括header等信息,等待服务器响应

2.获取响应内容

如何服务器响应,就会返回一个Response,Response返回的内容就是页面要获取的内容

3.解析内容

得到的内容,可能是HTML,可以用正则表达式或网页解析库进行分析。可能是json,可以直接转换为json对象解析,可能是二进制文件,可以做保存或进一步处理

4.保存数据

保存数据多种多样,可以是文本,也可以是数据库,或者是特定的文本形式

什么是requests,response

你的电脑发送个服务器叫做resques
服务器做出处理发送个你的电脑叫做response
在打开审查元素是,点击network,在进行刷新,你可以看到一些你的电脑与服务器的一些交互内容(请求头,响应头,IP地址的信息)

request
请求方式
  1. 主要有get,post,另外还有head,put,delete等等
  2. get与post主要的不同在于:
  3. get:一个信息会显示在URL后面,赛选比较方便
    post:数据在一个dateform内,需要进行验证与提交,比较安全
  4. URL请求:URL全称(统一资源定位符)如果一张网页,一张图片,一
  5. 段视频都可以用一个URL来确定
    请求头:包含请求的头部信息,如User-Agent,Host,cookies等信息
    请求体:请求时额外携带数据,如表单提交的表单数据(from data)
    一般来说get方式下是不会携带如何数据的
    如以下
Request URL: https://www.google.com/images/branding/googlelogo/2x/googlelogo_color_92
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值