Python的scopy框架的简单使用

最新推荐文章于 2022-10-12 20:03:35 发布

zwz1024

最新推荐文章于 2022-10-12 20:03:35 发布

阅读量807

点赞数

本文链接：https://blog.csdn.net/zwz1024/article/details/103555048

版权

本文介绍了如何在Python中安装和使用Scrapy爬虫框架，重点讲解了Scrapy的网络请求过程和XPath解析的优势。通过示例展示了利用requests进行网络请求，利用lxml库的etree模块进行HTML解析，并探讨了XPath的不同解析指令。

摘要由CSDN通过智能技术生成

首先通过终端安装scrapy爬虫框架:pip install scrapy
scrapy是一个多线程的爬虫框架，它的运行原理如下：

在这里插入图片描述
加粗样式
1，引入request模块，用来完成网络请求（如果没有requests模块，使用pip安装）
import requests,os
#完成网络数据请求
header={
‘user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ’
‘(KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36’
}
#构建get请求
if not os.path.exists(’./txt.html’):
reponse=requests.get(‘http://www.su74.com/’,headers=header)
with open(’./txt.html’,‘w’,encoding=‘UTF-8’) as f:
f.write(reponse.text)

“”"
requests返回的responses对象的属性
text–将网页源代码转化成字符串类型
content–将网页源代码转换成二进制数据类型
status_code–返回当前服务器响应的状态码
cookies–返回当前网页请求对应的cookie信息
encoding–返回当前网页的编码格式
“”"
#网页解

最低0.47元/天解锁文章

zwz1024

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python的scopy框架的简单使用

首先通过终端安装scrapy爬虫框架:pip install scrapyscrapy是一个多线程的爬虫框架，它的运行原理如下：加粗样式1，引入request模块，用来完成网络请求（如果没有requests模块，使用pip安装）import requests,os#完成网络数据请求header={‘user-agent: Mozilla/5.0 (Windows NT 10.0; ...
复制链接

扫一扫