python从web抓取信息

最新推荐文章于 2022-03-25 08:39:26 发布

无涯024

最新推荐文章于 2022-03-25 08:39:26 发布

阅读量625

点赞数

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45228758/article/details/109790609

版权

1. Web抓取常用模块

webbrower：打开浏览器获取指定页面。

requests：从网上下载文件和网页。

Beautiful Soup：解析HTML，即网页编写的格式。

Selenium：启动并控制浏览器，可以模拟鼠标在这个网页上点击。

2. 通过request模块下载Web文件

调用 requests.get()下载该文件。
用’wb’调用 open()，以写二进制的方式打开一个新文件。
利用 Respose 对象的 iter_content()方法做循环。
在每次迭代中调用 write()，将内容写入该文件。
调用 close()关闭该文件。

# _*_ coding:utf-8 _*_

# 输入模块
import requests

res = requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt')

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python从web抓取信息

1. Web抓取常用模块webbrower：打开浏览器获取指定页面。requests：从网上下载文件和网页。Beautiful Soup：解析HTML，即网页编写的格式。Selenium：启动并控制浏览器，可以模拟鼠标在这个网页上点击。2. 通过request模块下载Web文件调用 requests.get()下载该文件。用’wb’调用 open()，以写二进制的方式打开一个新文件。利用 Respose 对象的 iter_content()方法做循环。在每次迭代中调用 wr
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。