Python爬虫笔记(一):爬虫基本流程及对应的python库基本用法

Python爬虫笔记(一)


爬虫即网络爬虫,是指模拟用户使用的浏览器发送网络请求,再接收响应并进行处理,最后得到用户所要的信息。即实现自动抓取互联网上信息的程序。

一、爬虫的基本流程

爬虫的基本流程就是通过网址发送请求,获取响应,然后对获取的响应进行解析提取所需要的信息的过程。

二、有关浏览器的基本操作

1、查看页面HTML元素


在浏览器界面点击右键按检查,可查看该页面的HTML文本元素。

2、请求头、响应头

在这里插入图片描述

在浏览器中如上图所示右键检查,通过刷新页面可查看请求头和响应头。
常见的请求头有:

请求头功能
host域名或端口号
connection长链接
Upgrade-Insecure-Requests升级为HTTPS请求
user-agent用户代理
referer页面跳转处,即点击进入此页面的网址
cookie登录

响应头:
set-cookie是对方设置的Cookie到用户浏览器的缓存。

三、Python爬虫常用函数

1、Requests模块

Requests模块是一种用于发送请求获取响应的http模块。

(1)安装及官方中文文档链接

安装方法如下(二种方法):

pip3 install requests
pip install requests

Requests模块官方中文文档链接: Requests: 让 HTTP 服务人类

(2)发送请求获取响应方法

常用的发送请求的方法有两种:
get请求: response = requests.get(url) # url为请求对象网址
post请求: response = requests.post(url,data) #data字典可在浏览器检查中的标头找到
基本的发送请求接收响应的模板如下:

import requests

url = 'https://www.csdn.net'
response = requests.get(url)   # 发送get请求
print(response.text)   # (方法一)获取文本编码
print(response.content.decode())	# (方法二)获取二进制数据,因为传输时都为bytes类型,要进行decode解码
# 一般默认utf-8,也可用gbk,gb2312,ASCII,iso-8859-1

(3)常见response响应对象方法

方法功能
response.url响应的url(真实的url)
response.encoding将使用的response.text的编码方式
response.status_code查看状态码
response.request.headers响应对象的请求头
response.headers响应对象的响应头
response.request._cookies请求携带的cookies
response.cookies响应携带的cookies
response.headers[‘content-type’]返回响应头字典中包含的返回结果类型
response.json()将json字符串类型的响应内容转换为python对象

代码实现效果如下:

import requests

url = 'https://www.csdn.net'
response = requests.get(url)

print('response.url:',response.url,'\n')
print('response.encoding:',response.encoding,'\n')
print('response.status_code:',response.status_code,'\n')
print('response.request.headers:',response.request.headers,'\n')
print('response.headers:',response.headers,'\n')
print('response.request._cookies:',response.request._cookies,'\n')
print('response.cookies:',response.cookies,'\n')
print('response.headers:',response.headers['content-type'],'\n')

返回结果:
在这里插入图片描述
如果返回类型( response.headers[‘content-type’] )中有json类型,可使用以下方法替换json类型:txt = response.json()

(4)带请求头的请求

为了爬虫能够模拟浏览器模拟得更像,防止被轻易发现为非浏览器,在发送请求时应带上请求头。
在上文浏览器的操作中可查看网页对应的请求头,然后复制到代码中。使用方法如下:

import requests

url = 'xx'
headers = {
'User-Agent':'xxxxxx'
}

response = requests.get(url,headers = headers)

2、Beautiful Soup模块

Beautiful Soup模块可用于对文本进行解析美化,方便后续对数据的提取处理。

(1)安装及官方中文文档链接

安装方法如下(二种方法):

pip3 install beautifulsoup4
pip install beautifulsoup4

Beautiful Soup模块官方中文文档链接: Beautiful Soup 4.4.0 文档

(2)解析文本提取关键数据方法

soup = BeautifulSoup(text,features="lxml")    #使用BeautifulSoup解析文档text,并得到对象soup
text = soup.find_all('h4','bookname')    #使用find_all找到'h4'、'bookname'标签对应内容

四、具体实现案例

python爬小说
python爬bing图片
我是一名学生,目前正在学习中,本篇文章是我的学习笔记,如有错误的话还请指正。

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

超级大魔王li

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值