半自动爬虫开发以及网页爬虫开发

最新推荐文章于 2024-07-23 16:17:03 发布

yi_duan

最新推荐文章于 2024-07-23 16:17:03 发布

阅读量781

点赞数

分类专栏： python 文章标签：半自动爬虫开发以及网页爬虫开发

本文链接：https://blog.csdn.net/yi_duan/article/details/99685307

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

						Python对于半自动爬虫开发以及request模块的使用

1.半自动爬虫开发
所谓半自动爬虫开发就是手动的将网页的源代码复制下来，自动的部分就是通过正则表达式把其中有效的内容提取出来。
其中需要注意的点就是获取关键信息的时候注意观察特点以及格式
用的最多的组合是（.*?）能解决大部分的目标提取问题
使用Python读/写文本文件的和CSV文件都需要先把文件打开

2.简单的网页爬虫开发
1.首先使用import requests 获取源代码 get方式
source = requests.get(“https://www.csdn.net/”).content.deocde()
其中.content这个属性来显示bytes型网页的源代码
.deocde() 将.deocde将bytes型字符网页源代码解析成字符串型的代码
而deocde（）的括号中默认为UTF-8编码格式有些网站的编码格式可能是其他的
2.2
#这个字典的内容根据不同的网站进行修改
data = {“name”:“kingname”,
“password”:“genius”}

#POST方式（一些页面只能通过另一个界面单击某个链接或者某个按钮进行跳转不能通过浏览器输入网址访问，这种就用post方式）
html_formdata = requests.post(“http://exercise.kingname.info/exercise_requests_post”,data=data).content.decode()

yi_duan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
半自动爬虫开发以及网页爬虫开发

Python对于半自动爬虫开发以及request模块的使用1.半自动爬虫开发所谓半自动爬虫开发就是手动的将网页的源代码复制下来，自动的部分就是通过正则表达式把其中有效的内容提取出来。其中需要注意的点就是获取关键信息的时候注意观察特点以及格式用的最多的组合是（.*?）能解决大部分的目标提取问题使用Python读/写文本文件的和CSV文件都需要先把文件打开2.简单的网页爬...
复制链接

扫一扫