爬取初试----猫眼电影，猫眼评分

最新推荐文章于 2020-04-13 21:39:25 发布

兰布达

最新推荐文章于 2020-04-13 21:39:25 发布

阅读量1.5k

点赞数

分类专栏： python爬虫文章标签： python爬虫

本文链接：https://blog.csdn.net/weixin_43965454/article/details/97893991

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

之前看了很多关于爬虫的文章或教学视频，私以为这个教程最清晰，也是最有条理的
分享url ：
作者：python爬虫
https://www.bilibili.com/read/cv998287
出处： bilibili

爬虫的主要思想是：请求网页->获取html源码->匹配内容
多页爬取：获取页码->构建所有页码的循环，逐页爬取
举个例子：猫眼电影的评分网页
https://maoyan.com/films?showType=3&offset=30 <—这个是第二页的url,
https://maoyan.com/films?showType=3&offset=60<—这个是第三页的url
不难发现，他们的网页是有规律的，offset是递增的，公差为30
这将有利于我们构建页码的循环，实现多页爬取

import requests
url = "https://maoyan.com/films?showType=3&offset="
for i in range(10):
    pn_url= url+str(i*30)#由于猫眼电影每一个网页的offset的公差为30
    pn_html =requests.get(pn_url).text
    print(pn_url)#打印网站地址

猫眼评分
关于获取电影名字以及电影评分：
按下图操作，然后右键选择“copy xpath”
获取页码的xpath

pn=data.xpath('//*[@id="app"]/div/div[2]/div[3]/ul/li[7]/a/text()')
#从html中获取页码所对应的标签+/text()来取出文本

获取名字和评分
在dd文件夹下有三个div，分别是：电影信息，电影名字，电影评分
这是原作者的建议：分别获取class属性为"channel-detail movie-item-title"的div标签下的title值和div下的a标签的href值（这里没有用复制xpath路径，当然如果可以的话，也建议大家用这种方式，因为用路径的话，万一网页修改一下结构，那我们的代码就要重新写了）
pycharm解析html

names=pn_data.xpath('//div[@class="channel-detail movie-item-title"]/@title')
scores=pn_data.xpath('//div[@class="channel-detail channel-detail-orange"]')

由于评分不在一个标签下，而是2个标签下的文本内容合并的，所以用这种方式获取！

 scores=pn_data.xpath('//div[@class="channel-detail channel-detail-orange"]')
 scores=[x.xpath('string(.)')for x in scores]

完整代码如下：

import requests
from lxml import etree

url = "https://maoyan.com/films?showType=3&offset="
html = requests.get(url).text #.text是获取html文本，如果不加，则返回是否获取成功的提示
data=etree.HTML(html)#用lxml中的etree方法解析html，
print(html)#解析html的结果
pn=data.xpath('//*[@id="app"]/div/div[2]/div[3]/ul/li[7]/a/text()')
#从html中获取页码所对应的标签+/text()来取出文本
for i in range(10): #先获取10页做个实验
    pn_url= url+str(i*30)#由于猫眼电影每一个网页的offset的公差为30
    pn_html =requests.get(pn_url).text
    print(pn_url)
    pn_data=etree.HTML(pn_html)
    names=pn_data.xpath('//div[@class="channel-detail movie-item-title"]/@title')
    #与获取页码的方式相似，打开F12，我们所要的内容在dd这个标签下，它有三个div，分别放着电影名，电影评分，电影简介
    scores=pn_data.xpath('//div[@class="channel-detail channel-detail-orange"]')
    scores=[x.xpath('string(.)')for x in scores]
    for x,y in zip(names,scores):
        with open('movie.txt','a+',encoding='utf-8')as f:
            f.write('[电影名]'+x+' ')
            f.write('[电影评分]'+y+' '+'\n')
    print(f'the {i+1} page downloaded!')

兰布达

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬取初试----猫眼电影，猫眼评分

之前看了很多关于爬虫的文章或教学视频，私以为这个教程最清晰，也是最有条理的分享url ：作者：python爬虫https://www.bilibili.com/read/cv998287出处： bilibili爬虫的主要思想是：请求网页->获取html源码->匹配内容多页爬取：获取页码->构建所有页码的循环，逐页爬取举个例子：猫眼电影的评分网页https://ma...
复制链接

扫一扫