BeautifulSoup
最近再学习崔庆才的网络爬虫,之前看到用正则表达式爬取了猫眼Top100的电影,第一次爬取成功的时候还是蛮兴奋的。之后学习了BeautifulSoup,觉得可以试着用BeautifulSoup来编写爬取Top100的电影。这个程序编写参考了网上的BeautifulSoup崔庆才的正则表达式爬取编码。
准备工作
确保自己的电脑已经安装了所需要的库,例如requests、beautifulsoup等。
抓取分析
我们需要抓取的网站是:‘https://maoyan.com/board/4?offset=0’
打开网站后,看到的界面如下所示
按F12或右击对网页进行检查
在代码中发现有一个"dd"的标签,同时发现每个dd标签代表了一部电影!
我们需要的的也就是“dd“节点
我们可以使用以下代码直接定位到所需的节点部分:
soup=BeautifulSoup(html,'lxml')
items=soup.find_all(name='dd')
我们想要输出电影的排名、电影名、主演、上映时间、评分,这些信息在源代码的位置如下: