python爬虫基础入门

本文是Python爬虫的基础入门教程,涵盖了爬虫概述、requests库的使用、异常处理、理解robots.txt、动态UA、Beautiful Soup解析库的运用以及XPath解析技巧。通过实例详细讲解了如何发起请求、处理响应数据以及如何解析网页内容。
摘要由CSDN通过智能技术生成

目录
01 | 爬虫概述
02 | requests请求库
03 | 异常处理
04 | robots.txt
05 | 动态UA
06 | Beautiful Soup解析库
07 | 正则表达式
08 | Xpath

01 | 爬虫概述

1.爬虫与浏览器区别
在这里插入图片描述
2.爬虫过程
requests库发起请求-设置User- Agent伪装-BeautifulSoup/正则表达式获取数据

02 | requests请求库

1.requests使用步骤
-导入模块
-发送get请求, 获取响应
-从响应中获取数据

# 方法一
#coding:utf-8
# 1.导入模块
import requests
# 2.发送请求,获取响应
response = requests.get('http://www.baidu.com')
# 3.获取响应数据
# 将编码模式转换为中文,使用response.encoding可以查看原来的编码模式
response.encoding = 'utf-8'
print(response.text)

#方法二
import requests
response = requests.get('https://cn.bing.com/')
'''response.encoding = 'utf-8'
print(response.text)'''
# response.content抓取的是二进制,decode()是重新编码,默认是utf-8
print(response.content.decode())
# 一些网站的解码方式是gbk,就要用response.content.decade(encoding = 'gbk')

2.设置 UA 进行 伪装

import requests
url = 'https://cn.bing.com/'
# 设置head伪装
head = {
   'User - Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
# response.content抓取的是二进制,decode()是重新编码,默认是utf-8
data = requests.get(url,headers = head)
print(data.content.decode())
# 一些网站的解码方式是gbk,就要用response.content.decade(encoding = 'gbk')

3.response语法总结

response.encoding # 打印编码
responde.encoding = utf8 # 设置编码为utf8
response.content # 提取二进制数据
response.content
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值