打卡学习Python爬虫第三天|电影天堂案例

一、明确需求

目标:爬取最新更新的电影的豆瓣链接

观察网页和页面源代码,每部电影都有一个超链接去到子页面,我们需要的内容在子页面,如果我们一个一个子页面的去爬取会比较麻烦,可以尝试先通过首页爬取子页面的超链接,在通过子页面链接与首页url拼接的方式去访问每一个子页面。

首页:

 子页面:

 

二、编写代码:

import requests
import re
import csv

url = 'https://www.dyttcn.com/'

resp = requests.get(url,verify=False)  # verify=False忽略证书错误
resp.encoding = 'gb2312'  # 指定编码格式
#print(obj1.text)

# obj1拿到ul列表中的内容 obj2拿到超链接 obj3拿到子页面中的电影名和电影对应的豆瓣链接
obj1 = re.compile(r"最新更新.*?<ul>(?P<UL>.*?)</ul>",re.S)  # re.S表示.可以匹配换行符
obj2 = re.compile(r"<a href='(?P<url>.*?)'",re.S)
obj3 = re.compile(r"◎片  名(?P<name>.*?)</p>.*?◎豆瓣链接(?P<DBLJ>.*?)</p>",re.S)

# result1是提取的ul列表中的内容
result1 = obj1.finditer(resp.text)

# 利用列表保存提取后的链接
ZUrl_list = []

for i in result1:
     # print(i.group('lianjie').strip())
     result2 = obj2.finditer(i.group('UL').strip())

     # 提取子页面的链接
     for j in result2:
         # 拼接子页面的链接
         ZUrl = url + j.group('url').strip('/')
         # 保存链接到列表中
         ZUrl_list.append(ZUrl)
         # print(j.group('url').strip('/'))

# 提取子页面内容,子页面像提取首页那样来处理
for z in ZUrl_list:
    resp2 = requests.get(z,verify=False)  # verify=False忽略子页面证书错误
    resp2.encoding = 'gb2312'  # 指定编码格式
    result3 = obj3.finditer(resp2.text)  # result3是提取子页面中的电影名和豆瓣链接
    # print(resp2.text)
   
    # a的意思是追加  newline=''的意思是不换行
    with open('movieDBTT.csv', 'a', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        # 写入数据
        for i in result3:
            dict = {
                'name': i.group('name').strip(),
                'DBLJ': i.group('DBLJ').strip()
            }
            writer.writerow(dict.values())  # 写入数据
        #print(dict)
    resp2.close()
f.close()
resp.close()
print('over')

三、最终结果:

保存为csv文件

 需要其它内容,修改获取子链接数据的正则表达式即可,按自己需求来。 

 

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

你好皮~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值