爬取的网址:
http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
使用的环境:
pychram+anaconda5.4.7+python3.7.1
使用的函数库:
requests+pyquery+csv+time

爬取思路:先在爬取的网址中得到电影详情页的网址,再访问详情页提取需要的信息。
网站分析:
关于翻页,网站第一页为http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
第二页为http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html
第三个为http://www.ygdy8.net/html/gndy/dyzz/list_23_3.html
可以看出,仅有html前的数字变化,并且此数字对应的是页码
关于提取详情页网址,可以看到详情页的网址在b节点下的a节点的href属性中,在此信息前面加上http://www.ygdy8.net,就可以访问详情页。

提取详情页信息:
可以看到详情页的信息在下面部分的不同节点中,

本文介绍了使用Python爬取电影天堂网站的过程,包括环境配置、爬取思路、网站分析及代码实现。通过requests、pyquery等库获取电影详情页网址,然后提取电影信息,如主演、年代等。在处理编码问题时,遇到gbk解码不完全的问题,选择忽略并使用二进制content。主函数中对每一页进行爬取,异常处理避免因编码问题导致的中断,最终成功爬取1174部电影的数据并保存到CSV文件。
最低0.47元/天 解锁文章

7497

被折叠的 条评论
为什么被折叠?



