chapter2 爬虫豆瓣top250

最新推荐文章于 2024-07-24 10:38:58 发布

weixin_45622770

最新推荐文章于 2024-07-24 10:38:58 发布

阅读量55

点赞数

分类专栏：爬虫 python 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_45622770/article/details/119065036

版权

Python爬虫豆瓣电影正则表达式 CSV文件数据解析

关键词由CSDN通过智能技术生成

爬虫同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

python

4 篇文章 0 订阅

订阅专栏

import requests    #爬虫请求包
import re          #正则表达式的包
import csv         #导入csv包，写入数据

#请求头，模拟浏览器
headers = {
     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
 }

#提前加载正则表达式，效率更高
obj = re.compile(r'<li>.*?<span class="title">(?P<title>.*?)</span>'
                 r'.*?导演:(?P<actor>.*?)&nbsp'
                 r'.*?<br>(?P<year>.*?)&nbsp'
                 r'.*?<span class="rating_num" property="v:average">(?P<star>.*?)</span>'
                 r'.*?<span>(?P<num>.*?)人评价</span>',re.S)

#创建文件，newline消除空白行，encoding很重要
f = open("top250.csv",mode = "w",newline = "", encoding = 'utf-8-sig')
csvwriter = csv.writer(f)

#由于一页只能加载25个电影信息，利用循环获取250个电影信息
i = 0
for i in range(10):
    url = f"https://movie.douban.com/top250?start={i}&filter="
    resp = requests.get(url,headers = headers)
    resptext = resp.text   #获取网页text信息
    result = obj.finditer(resptext)  #正则匹配我们想要的信息
    
    #result是一个迭代器，利用循环读取每个电影的信息，并写入csv文件
    for it in result:
        dic = it.groupdict()   #it转换为字典格式
        dic['year'] = dic['year'].strip()  #消除对应值的空白部分
        csvwriter.writerow(dic.values())    #每个电影信息写入csv文件
f.close()                         #关闭csv文件
print("over!")

weixin_45622770

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
chapter2 爬虫豆瓣top250

import requests #爬虫请求包import re #正则表达式的包import csv #导入csv包，写入数据#请求头，模拟浏览器headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36" }#提前加载
复制链接

扫一扫

专栏目录