爬取的网址:
http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
使用的环境:
pychram+anaconda5.4.7+python3.7.1
使用的函数库:
requests+pyquery+csv+time
爬取思路:先在爬取的网址中得到电影详情页的网址,再访问详情页提取需要的信息。
网站分析:
关于翻页,网站第一页为http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
第二页为http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html
第三个为http://www.ygdy8.net/html/gndy/dyzz/list_23_3.html
可以看出,仅有html前的数字变化,并且此数字对应的是页码
关于提取详情页网址,可以看到详情页的网址在b节点下的a节点的href属性中,在此信息前面加上http://www.ygdy8.net,就可以访问详情页。
提取详情页信息:
可以看到详情页的信息在下面部分的不同节点中,