python 爬虫学习--DAY1-----requests模块

最新推荐文章于 2024-07-12 16:16:27 发布

传说中的懿痕

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量153

点赞数

分类专栏： python爬虫系列文章标签： python 爬虫

本文链接：https://blog.csdn.net/yihen0214/article/details/119492885

版权

python爬虫系列专栏收录该内容

14 篇文章 1 订阅

订阅专栏

python 爬虫学习–DAY1-----requests模块

python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。
最主要的作用：模拟浏览器发送请求。

文章目录

python 爬虫学习--DAY1-----requests模块

安装request模块

打开pycharm终端Terminal
输入 pip install requests

requests模块爬取数据使用流程

指定url(可以简单的理解为所要爬取数据的网址)
发起请求
获取响应数据
持久化存储数据

流程实例----爬取搜狗首页的页面数据

"""
实例：爬取搜狗首页的页面数据
"""
#0.导入requests模块
import requests

#1. 指定url
url="https://www.sogou.com/"

#2. 发起请求（一般情况下发送GET请求）
# 调用requests.get()会返回一个响应对象
response=requests.get(url=url)

#3. 获取相应对象
# .text返回的时字符串形式的响应数据
page_text=response.text

#4.持久化存储
#with open(...)as    第一个参数为文件地址，第二个参数指定文件使用方式: 'r'--只读模式
#'w'--写入模式  'a'--任何append进file的数据都被自动加到文件末尾位置  'r+'--读写均可
#通过fp.write()来写入数据，实现持久化存储
with open("./sougou.html",'w',encoding="utf-8") as fp:
	fp.write(page_text)
print("爬取结束")

一些可能出现的问题

爬取某些网页，爬取结果为空

原因：可能网页有反爬机制，最常见的UA机制，比如直接爬取豆瓣网页，爬取结果为空

解决办法：增加UA伪装，在get请求中加入请求头


url="https://www.douban.com//"
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36 SLBrowser/6.0.1.8131'
    }
response=requests.get(url=url,headers=headers)

爬取的页面打开为乱码

原因：可能页面的编码形式不同，比如百度，爬取页面打开为乱码
介绍两种方法：encode()用于解码，decode用于编码
解码形式有：gbk、utf-8
通常解决方法：先将网页源代码解码成Unicode编码,然后用utf-8编码

page_text=response.text.encode('iso-8859-1').decode('utf-8')

不同的网页编码不同，根据网页编码方式来编码,比如电影天堂用gbk编码。

page_text=response.text.encode('iso-8859-1').decode('gbk')

ps:使用F12查看网页源代码的head标签里的meta标签中charset属性可以找到编码方式

传说中的懿痕

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
python 爬虫学习--DAY1-----requests模块

python 爬虫学习–DAY1-----requests模块python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。最主要的作用：模拟浏览器发送请求。文章目录python 爬虫学习--DAY1-----requests模块安装request模块推荐使用国内下载源下载，速度快requests模块爬取数据使用流程流程实例----爬取搜狗首页的页面数据一些可能出现的问题爬取某些网页，爬取结果为空安装request模块打开pycharm终端Terminal输入 pip inst
复制链接

扫一扫