小白做爬虫，爬虫四步曲

最新推荐文章于 2022-01-21 17:50:59 发布

zwy_0309

最新推荐文章于 2022-01-21 17:50:59 发布

阅读量182

点赞数

分类专栏：项目文章标签：爬虫的四个步骤

本文链接：https://blog.csdn.net/zwy_0309/article/details/100857042

版权

30 篇文章 5 订阅

订阅专栏

获取网页
python有许多库来帮助我们获取网页，如urllib、requests等，这些库帮助我们实现HTTP请求操作，我们只需要解析数据结构中的Body部分即可。
提取信息（解析信息）
一种方法是采用正则表达式，当然该法易出错；
一种方法是根据网页结点属性、CSS选择器或XPath来提取网页信息，这一方法有专门的库如BeautifulSoup、pyquery、lxml等。
保存数据
保存形式可以多样，可以是TXT，也可以是EXCEL，还可以是JSON，还可以写到数据库中。（我的目标是形成EXCEL，以便发日报使用。）
自动化程序
让爬虫代替人自动地快速大量爬取数据，即它在爬取时可以进行各种异常处理，错误重试等操作。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注