【Python3网络爬虫】抓取猫眼电影排行榜

最新推荐文章于 2024-08-09 22:15:00 发布

code2rich

最新推荐文章于 2024-08-09 22:15:00 发布

阅读量4.9k

点赞数 1

分类专栏： Python3网络爬虫

本文链接：https://blog.csdn.net/zhu444250169/article/details/80319257

版权

本文介绍了如何使用Python3编写网络爬虫，抓取猫眼电影排行榜上的电影信息，包括电影的排名、图片、名称、主演、上映时间和评分等。通过正则表达式提取网页数据，最后将结构化的电影信息写入文本文件。同时，文章展示了如何进行分页爬取，以获取排行榜前100名的电影数据。

摘要由CSDN通过智能技术生成

#抓取猫眼电影排行榜前100

#目标：提取出猫眼电影TOP100的电影名称、时间、评分、图片等信息

#提取站点：http://maoyan.com/board/4 提取的结果以文件形式保存

#使用知识：网页基础、网络基础、urllib、requests、正则表达式

1.抓取分析：

1.网站页面有效信息：影片名称主演上映时间上映地区评分图片一页10条

2.点击第二页发现上方的URL http://maoyan.com/board/4?offset=10

由此可见 offset代表偏移值

2.抓取首页

import requests

def get_one_page(url):
    headers ={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36',
        }
    response = requests.get(url,headers = headers)
    if response.status_code ==200:
        return response.text
    return None

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    print(html)
    
main()

3.正则提取

先观察一个条目的源码：