爬虫

最新推荐文章于 2022-02-14 23:24:06 发布

小、七

最新推荐文章于 2022-02-14 23:24:06 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/weixin_45967126/article/details/106991647

版权

爬虫

爬虫

爬虫一：自学内容

# 1 爬虫介绍
# 2 requests模块
# 3 爬一个视频网站
# 4 模拟登陆某网站
# 5 bs4
# 6 汽车之家新闻
# 7 selenium
# 8 京东商品信息
# 9 代理池，cookie池
# 10 验证码破解（打码平台）
# 11 自动登陆到12306，拿到cookie
# 12 抓包工具的使用fillder（app爬取）
# 13 scarpy框架，持久化，整站爬取，集成selenium，代理池，UA
# 14 分布式爬虫，scrapy-redis
# 15 Mongodb

1 爬虫介绍

# 1 本质：模拟发送http请求（requests）----》解析返回数据（re，bs4，lxml，json）---》入库（redis，mysql，mongodb）
# 2 app爬虫：本质一模一样
# 3 为什么python做爬虫最好：包多，爬虫框架：scrapy：性能很高的爬虫框架，爬虫界的django，大而全（爬虫相关的东西都集成了）
# 4 百度，谷歌，就是个大爬虫  在百度搜索，其实是去百度的服务器的库搜的，百度一直开着爬虫，一刻不停的在互联网上爬取，把页面存储到自己库中
# 5 全文检索：全文检索


# 10 你公司里可以做项目，爬虫爬回来的（律师行业），搭一个搜索网站（app，小程序），
# 11 医疗行业：造药企业，头孢类的
# 12 爬简历：简历库


#面试很重要：http协议（80%被问到）
# 特点
（1）应用层协议（mysql，redis，mongodb：cs架构的软件：Navicat，python代码：pymysql，都是mysql客户端--socket：自己定制的协议----》服务端）（docker，es---》http（resful）---》服务端）
（2）基于请求－响应模式：
		客户端主动发起请求---》服务端才能响应   （服务端不能主动推送消息：轮询，长轮询，websocket协议：主动推送消息）
（3）无状态保存（cookie，session，token：）
（4）无连接：发送一次请求，响应完就断开，性能影响（http协议版本：0.9，1.1:多次请求，共用一个socket连接，2.0:
    一次请求，可以携带多个http请求）
    
# http请求：请求首行，请求头，请求体
	-127.0.0.1/name=lqz&age=18：请求首行
  -post请求请求体中放数据：name=lqz&age=18  放在请求体中
  	-post请求，可以这样发么：127.0.0.1/name=lqz&age=18，django数据requtes.GET
    -放在体中的：request.POST
    -请求体的格式（编码格式）：
      urlencode:name=lqz&age=18   ---》request.POST
      json:{name:lqz,age:18}     ---->request.POST取不出来(为什么？django框架没有做这个事)
      formdata:传文件，5g大文件，    ----》request.POST
# http响应：
	# 响应首行：状态码：1，2，3，4，5   301和302的区别
  # 响应头：key：value：背几个响应头
  	-cookie：
    -cache-control：缓存控制
  # 响应体：
  	html，json
    
# 浏览器调试
	-右键--》调试模式
  -elements：响应体，html格式
  -console：调试窗口（js输出的内容，在这能看到）
  -network：发送的所有请求，all  xhr：ajax请求

2 requests模块

# 1 模块：可以模拟发送http请求，urlib2：内置库，不太好用，繁琐，封装出requests模块，应用非常广泛（公司，人）
# 2 pip3 install requests
# 3 小插曲：requests作者，众筹换电脑（性能跟不上了），捐钱（谷歌公司捐了），2 万 8 千美元，买了游戏设备，爆料出来，骗捐，辟谣

# 1 request模块基本使用

import requests

# # 发送http请求
# # get,delete,post。。本质都是调用request函数
# ret=requests.get('https://www.cnblogs.com')
# print(ret.status_code) # 响应状态码
# print(ret.text)  # 响应体，转成了字符串
# print(ret.content) # 响应体，二进制
# ret=requests.post()\
# ret=requests.request("get",)
# ret=requests.delete()

# 2 get 请求带参数
# 方式一
# ret = requests.get('https://www.baidu.com/',
#                    headers={
#                        # 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
#                        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
#                    })
# print(ret.text)
# 方式2（建议用方式二）中文会自动转码
# ret=requests.get('http://0.0.0.0:8001/',params={'name':"美女",'age':18})
# print(ret.text)


# 3 带headers
# ret = requests.get('http://0.0.0.0:8001/?name=%E7%BE%8E%E5%A5%B3',
#                    headers={
#                        # 标志，什么东西发出的请求，浏览器信息，django框架，从哪取？（meta）
#                        'User-Agent': 'request',
#                        # 上一个页面的地址，图片防盗链
#                        'Referer': 'xxx'
#                    })
# print(ret)

# 图片防盗链：如果图片的referer不是我自己的网站，就直接禁止掉
# <img src="https://www.lgstatic.com/lg-community-fed/community/modules/common/img/avatar_default_7225407.png">


# 4 带cookie,随机字符串(用户信息：也代表session)，不管后台用的token认证，还是session认证
# 一旦登陆了，带着cookie发送请求，表示登陆了（下单，12306买票，评论）
# 第一种方式
# ret = requests.get('http://0.0.0.0:8001/?name=%E7%BE%8E%E5%A5%B3',
#                    headers={
#                        'cookie': 'key3=value;key2=value',
#                    })
# 第二种方式
# ret = requests.get('http://0.0.0.0:8001/?name=%E7%BE%8E%E5%A5%B3',
#                    cookies={"islogin":"xxx"})
# print(ret)

# 5 发送post请求（注册，登陆），携带数据（body）
#data=None, json=None
# data:urlencoded编码
# ret=requests.post('http://0.0.0.0:8001/',data={'name':"lqz",'age':18})
# json:json编码
# import json
# data=json.dumps({'name':"lqz",'age':18})
# ret=requests.post('http://0.0.0.0:8001/',json=data)
# print(ret)
# 注意：编码格式是请求头中带的，所有我可以手动修改，在headers中改

# 6 session对象
# session=requests.session()
# # 跟requests.get/post用起来完全一样，但是它处理了cookie
# # 假设是一个登陆，并且成功
# session.post()
# # 再向该网站发请求，就是登陆状态，不需要手动携带cookie
# session.get("地址")


# 7 响应对象
# print(respone.text)   # 响应体转成str
# print(respone.content) # 响应体二进制（图片，视频）
#
# print(respone.status_code) # 响应状态码
# print(respone.headers) # 响应头
# print(respone.cookies) # 服务端返回的cookie
# print(respone.cookies.get_dict()) # 转成字典
# print(respone.cookies.items())
#
# print(respone.url)  # 当次请求的地址
# print(respone.history) # 如果有重定向，放到一个列表中
# ret=requests.post('http://0.0.0.0:8001/')
# ret=requests.get('http://0.0.0.0:8001/admin')
# #不要误解
# ret=requests.get('http://0.0.0.0:8001/user')
# print(ret.history)

# print(respone.encoding) # 编码方式

#response.iter_content() # 视频，图片迭代取值
# with open("a.mp4",'wb') as f:
#     for line in response.iter_content():
#

最低0.47元/天解锁文章

小、七

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫

目录爬虫爬虫一：自学内容1 爬虫介绍2 requests模块3 代理4 爬视频5 自动登录网站爬虫二：昨日回顾今日内容1 requests+bs4爬汽车之家新闻2 bs4的使用（遍历文档树和查找文档树）3 带你搭一个免费的代理池4 验证码破解5 爬取糗事百科段子，自动通过微信发给女朋友（老板）爬虫三：昨日回顾今日内容1 css选择器和xpath选择器2 selenium的简单使用3 se...
复制链接

扫一扫