Python爬虫学习第二章-1-requests模块简介

最新推荐文章于 2022-03-07 22:10:07 发布

BreezeChasingDrizzle

最新推荐文章于 2022-03-07 22:10:07 发布

阅读量236

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_44032178/article/details/109179003

版权

爬虫专栏收录该内容

19 篇文章 2 订阅

订阅专栏

Python爬虫学习第二章-1-requests模块简介

这一章主要是介绍requests模块的相关知识以及使用

1、requests模块简介：

概述：是python中原生的一款基于网络请求的模块，高效简洁
作用：用来模拟浏览器发请求。
如何使用（模拟浏览器发请求的过程）：指定url即指定网址；对当前url发起请求，如get请求；获取服务器响应的数据，如显示的页面数据；将爬取到的响应数据进行持久化存储，可以作为使用requests模块的编码流程
实战编码：指定需求：爬取搜狗首页的页面数据

2、爬取搜狗首页的页面数据

import requests
if __name__ == "__main__":
    #step1:指定url
    url = 'https://www.sogou.com/'
    #进行UA伪装，在下一节会提到
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
    }  # 在url之后要紧接着进行UA伪装，也是定义一个headers
    #step2:发起请求,此处是发起get请求，第一个参数是指针对哪个url发起get请求
    response=requests.get(url=url) #get方法会返回一个响应对象
    #step3：获取响应数据，（响应数据应该是在响应对象中并且请求成功之后才会有响应对象，所以在发起请求之后得定义一个响应对象接受get方法的返回值，）
    page_text=response.text #text属性是返回一组字符串,该字符串即为获取的响应数据
    print(page_text)
    #step4：持久化存储
    with open('./sougo.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print("爬取数据结束")

结果就是爬取到了搜狗首页的源码数据（这里仅展示一个截图）
在这里插入图片描述
注意with open的使用：with open用来打开本地文件的，处理完文件后，会自动关闭文件，无需手动书写close()。

3、在pycharm中，可能会遇到文本过长，强制换行的情况，我根据网上的资料总结了一下：
方法一：File–>settings–>Editor–>General–>Soft Wraps,把Use soft wraps in editor 这个选项的勾选去掉。截图如下：
在这里插入图片描述
方法二：View–>Active Edito，不选Use soft wraps ,截图如下

方法三：Code–>Reformat Code,截图如下

BreezeChasingDrizzle

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习第二章-1-requests模块简介

Python爬虫学习第二章-1-requests模块简介这一章主要是介绍requests模块的相关知识以及使用1、requests模块简介：概述：是python中原生的一款基于网络请求的模块，高效简洁作用：用来模拟浏览器发请求。如何使用（模拟浏览器发请求的过程）：指定url即指定网址；对当前url发起请求，如get请求；获取服务器响应的数据，如显示的页面数据；将爬取到的响应数据进行持久化存储，可以作为使用requests模块的编码流程实战编码：指定需求：爬取搜狗首页的页面数据2、爬取
复制链接

扫一扫