python爬取电影天堂

本文介绍了使用Python爬取电影天堂网站的过程,包括环境配置、爬取思路、网站分析及代码实现。通过requests、pyquery等库获取电影详情页网址,然后提取电影信息,如主演、年代等。在处理编码问题时,遇到gbk解码不完全的问题,选择忽略并使用二进制content。主函数中对每一页进行爬取,异常处理避免因编码问题导致的中断,最终成功爬取1174部电影的数据并保存到CSV文件。
摘要由CSDN通过智能技术生成

爬取的网址:
http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
使用的环境:
pychram+anaconda5.4.7+python3.7.1
使用的函数库:
requests+pyquery+csv+time
在这里插入图片描述
爬取思路:先在爬取的网址中得到电影详情页的网址,再访问详情页提取需要的信息。

网站分析:
关于翻页,网站第一页为http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
第二页为http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html
第三个为http://www.ygdy8.net/html/gndy/dyzz/list_23_3.html
可以看出,仅有html前的数字变化,并且此数字对应的是页码

关于提取详情页网址,可以看到详情页的网址在b节点下的a节点的href属性中,在此信息前面加上http://www.ygdy8.net,就可以访问详情页。
在这里插入图片描述
提取详情页信息:
可以看到详情页的信息在下面部分的不同节点中,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值