爬虫疑问百解

最新推荐文章于 2023-03-21 16:29:45 发布

小樊努力努力再努力

最新推荐文章于 2023-03-21 16:29:45 发布

阅读量459

点赞数 2

文章标签：爬虫 http https

本文链接：https://blog.csdn.net/weixin_51130521/article/details/122520352

版权

爬虫简介

什么是爬虫：
- 通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

http协议
- 概念：就是服务器和客户端进行数据交互的一种形式。
常用请求头信息
- User-Agent：请求载体的身份标识
- Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息
- Content-Type：服务器响应回客户端的数据类型

https协议：
- 安全的超文本传输协议

加密方式
- 对称秘钥加密
- 非对称秘钥加密
- 证书秘钥加密

爬虫在使用场景中的分类
- 通用爬虫：
抓取系统重要组成部分。抓取的是一整张页面数据。
- 聚焦爬虫：
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
- 增量式爬虫：
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

requests模块基础

操作流程

指定url
UA伪装
请求参数的处理
发起请求
获取响应数据
持久化存储

举个例子：

import requests


def get_sogou():
    #step1 指定URL
    url = 'https://www.sogou.com/'
    #step2 发起请求
    response = requests.get(url=url)
    #step3 获取响应数据，txt返回的是字符串形式的响应数据
    page_txt = response.text
    print(page_txt)
    #step4 持久化存储
    with open('./sogou.html','w',encoding='utf-8') as f:
        f.write(page_txt)
    print('爬虫结束-----')



if  __name__ == '__main__':
    get_sogou()

requests模块参数都有啥？

Python 提供了 requests 模块用来处理网页的 url，主要有 get() 和 post() 两个方法，分别对应网页的 Get 请求和 Post 请求。get() 和 post() 方法有以下几个参数：

url：指定请求 URL；
params：字典类型，指定请求参数，GET 请求时使用；
data：字典类型，指定表单信息，常用于发送 POST 请求；
headers：字典类型，指定请求头；
proxies：字典类型，指定使用的代理；
cookies：字典类型，指定 Cookie；
auth：元组类型，指定登陆时的账号和密码；
verify：布尔类型，指定请求网站时是否需要进行证书验证，默认为 True，表示需要证书验证，假如不希望进行证书验证，则需要设置为 False；
timeout：指定超时时间，若超过指定时间没有获得响应，则抛出异常。
get() 和 post() 两个方法这两个方法都会返回一个Response对象，其常用的属性和方法列举如下：

咱一般都用的json这个是个啥？

dumps 方法 Python 数据结构转换为 JSON：

loads 方法

可以将一个 JSON 编码的字符串转换回一个 Python 数据结构，并取指定的值：

将字典写入 JSON 文件、

data.json 是需要保存的文件名名字，dump是用来写入储存数据的，注意区分的是dumps

是将 dumps 方法 Python 数据结构转换为 JSON

读取文件中的 JSON 数据

因为把json文件弄成的是json类型的当成f所以下载的时候（也就是解析成python数据类型的时候)传入f，也就是变成字典形式

小樊努力努力再努力

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫疑问百解

爬虫简介什么是爬虫： - 通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。http协议 - 概念：就是服务器和客户端进行数据交互的一种形式。常用请求头信息 - User-Agent：请求载体的身份标识 - Connection：请求完毕后，是断开连接还是保持连接常用响应头信息 - Content-Type：服务器响应回客户端的数据类型https协议： - 安全的超文本传输协议加密方式 - 对称秘钥加密 ...
复制链接

扫一扫