用BeautifulSoup爬取猫眼榜单Top100电影

最新推荐文章于 2020-02-21 11:31:48 发布

加油、向上吧

最新推荐文章于 2020-02-21 11:31:48 发布

阅读量3k

点赞数 5

分类专栏： Python爬虫文章标签： Python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43822657/article/details/100012552

版权

用BeautifulSoup爬取猫眼榜单Top100电影

BeautifulSoup

BeautifulSoup

最近再学习崔庆才的网络爬虫，之前看到用正则表达式爬取了猫眼Top100的电影，第一次爬取成功的时候还是蛮兴奋的。之后学习了BeautifulSoup，觉得可以试着用BeautifulSoup来编写爬取Top100的电影。这个程序编写参考了网上的BeautifulSoup崔庆才的正则表达式爬取编码。

准备工作

确保自己的电脑已经安装了所需要的库，例如requests、beautifulsoup等。

抓取分析

我们需要抓取的网站是：‘https://maoyan.com/board/4?offset=0’
打开网站后，看到的界面如下所示
在这里插入图片描述
按F12或右击对网页进行检查
在代码中发现有一个"dd"的标签，同时发现每个dd标签代表了一部电影！

我们需要的的也就是“dd“节点
在这里插入图片描述
我们可以使用以下代码直接定位到所需的节点部分：

    soup=BeautifulSoup(html,'lxml')
    items=soup.find_all(name='dd')

我们想要输出电影的排名、电影名、主演、上映时间、评分，这些信息在源代码的位置如下：

最低0.47元/天解锁文章

加油、向上吧

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
用BeautifulSoup爬取猫眼榜单Top100电影

用BeautifulSoup爬取猫眼榜单Top100电影BeautifulSoup准备工作抓取分析编程代码：获取页面解析网页写入文件代码整合分页爬取完整代码：BeautifulSoup最近再学习崔庆才的网络爬虫，之前看到用正则表达式爬取了猫眼Top100的电影，第一次爬取成功的时候还是蛮兴奋的。之后学习了BeautifulSoup，觉得可以试着用BeautifulSoup来编写爬取Top100...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。