python猫眼top数据解析画图

最新推荐文章于 2020-12-19 14:13:50 发布

冬。临

最新推荐文章于 2020-12-19 14:13:50 发布

阅读量296

点赞数

分类专栏： python 文章标签： python 爬虫数据解析

本文链接：https://blog.csdn.net/weixin_43963964/article/details/102681109

版权

猫眼top100数据解析

这是继上篇爬取数据后的数据解析，且尝试使用更多种方法去抓取、存储数据。上篇链接为link

抓取数据方法介绍

1.利用正则表达式解析

def parse_one_page(html):
    pattern = '<dd>.*?board-index.*?">(\d+)</i>.*?data-src="(.*?)".*?/>.*?movie-item-info.*?title="(.*?)".*?star">' + \
              '(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(\d+)</i>.*?</dd>'
    # re.S匹配任意字符，多行
    regex = re.compile(pattern, re.S)
    items = regex.findall(html)
    for item in items:
        yield {
   
            'index': item[0],
            'thumb': get_large_thumb(item[1]),
            'title': item[2],
            'actors': item[3].strip()[3:],
            'release_time': get_release_time(item[4].strip()[5:]),
            'area': get_release_area(item[4].strip()[5:]),
            'score': item[5] + item[6]
        }
        pass
    pass

2.使用lxml中Xpath路径解析

def parse_one_page2(html):
    parse = etree.HTML(html)
    items = parse.xpath("//*[@id='app']//div//dd")
    for item in items:
        yield{
   
            'index':item.xpath("./i/text()")[0],
            'thumb':get_large_thumb(str(item.xpath("./a/img[2]/@data-src")[0

最低0.47元/天解锁文章

冬。临

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python猫眼top数据解析画图

猫眼top100数据解析这是继上篇爬取数据后的数据解析，且尝试使用更多种方法去抓取、存储数据。上篇链接为link抓取数据方法介绍1.利用正则表达式解析def parse_one_page(html): pattern = '<dd>.*?board-index.*?">(\d+)</i>.*?data-src="(.*?)".*?/>.*?mov...
复制链接

扫一扫