想学爬虫爬取网页,但是不知道流程?

爬取网页总体概述:
1.使用urllib请求网页,获取网页源码。
2.使用bs4配合re正则表达式进行页面数据解析,获取到自己想要的数据。
3.使用pymysql保存到数据库或xlwt保存成excel文件。

温馨提示:学习之前需要先了解py基础知识,urllib库、网页相关知识、bs4库、re库、正则表达式、pymysql库、xlwt库等知识。这里推荐菜鸟教程,地址:点击查看

一、urllib请求网页

1、通过urllib.request.Request构造request请求,可为request加各类参数,比如常添加的header信息。
在这里插入图片描述

2、将构造好的request请求放置urllib.request.urlopen方法中,方法会返回一个响应response。
在这里插入图片描述

3、使用response.read方法可以获取网页内容。
在这里插入图片描述

二、bs4解析html源码

1、使用BeautifulSoup去解析urllib获取到的html源码。
在这里插入图片描述

2、分析网页,使用find_all找到自己需要的html块。
在这里插入图片描述

三、re正则表达式筛选有用信息

1、使用re.compile方法构建正则表达式。(注意:加上r,避免不必要的字符被转义。)
在这里插入图片描述

2、将html块转换为字符串,通过re.findall+构建的表达式找到我们需要的数据。
在这里插入图片描述

四、保存数据(xlwt、pymysql使用)

1、通过xlwt保存到表格文件

(1)通过xlwt.Workbook创建xls表在这里插入图片描述

(2)通过add_sheet创建sheet表在这里插入图片描述

(3)通过write添加表头在这里插入图片描述

(4)插入数据在这里插入图片描述

2、通过pymysql保存到数据库

(1)初始化数据库在这里插入图片描述

(2)生成游标,编写sql语句在这里插入图片描述

(3)执行sql语句在这里插入图片描述

(4)关闭数据库
在这里插入图片描述

本文以爬取电影为例,编写了代码。源代码仅提供学习使用,请勿用于商业用途。

"IT学习小镇"号内回复“douban”即可获取源码。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT学习小镇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值