Python爬虫笔记(一)
文章目录
爬虫即网络爬虫,是指模拟用户使用的浏览器发送网络请求,再接收响应并进行处理,最后得到用户所要的信息。即实现自动抓取互联网上信息的程序。
一、爬虫的基本流程
爬虫的基本流程就是通过网址发送请求,获取响应,然后对获取的响应进行解析提取所需要的信息的过程。
二、有关浏览器的基本操作
1、查看页面HTML元素
在浏览器界面点击右键按检查,可查看该页面的HTML文本元素。
2、请求头、响应头
在浏览器中如上图所示右键检查,通过刷新页面可查看请求头和响应头。
常见的请求头有:
请求头 | 功能 |
---|---|
host | 域名或端口号 |
connection | 长链接 |
Upgrade-Insecure-Requests | 升级为HTTPS请求 |
user-agent | 用户代理 |
referer | 页面跳转处,即点击进入此页面的网址 |
cookie | 登录 |
响应头:
set-cookie是对方设置的Cookie到用户浏览器的缓存。
三、Python爬虫常用函数
1、Requests模块
Requests模块是一种用于发送请求获取响应的http模块。
(1)安装及官方中文文档链接
安装方法如下(二种方法):
pip3 install requests
pip install requests
Requests模块官方中文文档链接: Requests: 让 HTTP 服务人类
(2)发送请求获取响应方法
常用的发送请求的方法有两种:
get请求: response = requests.get(url) # url为请求对象网址
post请求: response = requests.post(url,data) #data字典可在浏览器检查中的标头找到
基本的发送请求接收响应的模板如下:
import requests
url = 'https://www.csdn.net'
response = requests.get(url) # 发送get请求
print(response.text) # (方法一)获取文本编码
print(response.content.decode()) # (方法二)获取二进制数据,因为传输时都为bytes类型,要进行decode解码
# 一般默认utf-8,也可用gbk,gb2312,ASCII,iso-8859-1
(3)常见response响应对象方法
方法 | 功能 |
---|---|
response.url | 响应的url(真实的url) |
response.encoding | 将使用的response.text的编码方式 |
response.status_code | 查看状态码 |
response.request.headers | 响应对象的请求头 |
response.headers | 响应对象的响应头 |
response.request._cookies | 请求携带的cookies |
response.cookies | 响应携带的cookies |
response.headers[‘content-type’] | 返回响应头字典中包含的返回结果类型 |
response.json() | 将json字符串类型的响应内容转换为python对象 |
代码实现效果如下:
import requests
url = 'https://www.csdn.net'
response = requests.get(url)
print('response.url:',response.url,'\n')
print('response.encoding:',response.encoding,'\n')
print('response.status_code:',response.status_code,'\n')
print('response.request.headers:',response.request.headers,'\n')
print('response.headers:',response.headers,'\n')
print('response.request._cookies:',response.request._cookies,'\n')
print('response.cookies:',response.cookies,'\n')
print('response.headers:',response.headers['content-type'],'\n')
返回结果:
如果返回类型( response.headers[‘content-type’] )中有json类型,可使用以下方法替换json类型:txt = response.json()
(4)带请求头的请求
为了爬虫能够模拟浏览器模拟得更像,防止被轻易发现为非浏览器,在发送请求时应带上请求头。
在上文浏览器的操作中可查看网页对应的请求头,然后复制到代码中。使用方法如下:
import requests
url = 'xx'
headers = {
'User-Agent':'xxxxxx'
}
response = requests.get(url,headers = headers)
2、Beautiful Soup模块
Beautiful Soup模块可用于对文本进行解析美化,方便后续对数据的提取处理。
(1)安装及官方中文文档链接
安装方法如下(二种方法):
pip3 install beautifulsoup4
pip install beautifulsoup4
Beautiful Soup模块官方中文文档链接: Beautiful Soup 4.4.0 文档
(2)解析文本提取关键数据方法
soup = BeautifulSoup(text,features="lxml") #使用BeautifulSoup解析文档text,并得到对象soup
text = soup.find_all('h4','bookname') #使用find_all找到'h4'、'bookname'标签对应内容
四、具体实现案例
python爬小说
python爬bing图片
我是一名学生,目前正在学习中,本篇文章是我的学习笔记,如有错误的话还请指正。