爬取豆瓣电影各个类型的电影名称

最新推荐文章于 2024-10-09 21:53:44 发布

叭你们豆沙了

最新推荐文章于 2024-10-09 21:53:44 发布

阅读量415

点赞数 1

分类专栏：爬虫爬取数据文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44380466/article/details/120691512

版权

爬虫爬取数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

import requests,re,json
from lxml import etree
from openpyxl import  Workbook
wb = Workbook()
ws = wb.active
ws.append(['电影名称'])
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
    
}
base_url = 'https://movie.douban.com/chart'
movies_count_url= 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'
movies_url = 'https://movie.douban.com/j/chart/top_list?type={}&interval_id=100%3A90&action=&start=0&limit={}'
response = requests.get(url=base_url,headers=headers)
html = etree.HTML(response.text)
span_list = html.xpath('//div[@class="types"]/span')
for span in span_list:
    big_title = span.xpath('./a/text()')[0]
    types_id = span.xpath('./a/@href')[0]
    type_id = re.findall('.*?type=(\d+).*?',types_id)[0]
    # print(big_title,type_id)
    resp = requests.get(url=movies_count_url.format(type_id),headers=headers)
    dict_data = json.loads(resp.text)
    movies_count = dict_data['total']
    # print(movies_count)
    res = requests.get(url=movies_url.format(type_id,movies_count),headers=headers)
    movies_list = json.loads(res.text)
    print(big_title)
    for movies in movies_list:
        lis = []
        movies_name = movies['title']
        lis.append(movies_name)
        ws.append(lis)
wb.save('./data/豆瓣电影大全.xlsx')

叭你们豆沙了

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

叭你们豆沙了 CSDN认证博客专家 CSDN认证企业博客

码龄6年

10: 原创

113万+: 周排名

160万+: 总排名

3080: 访问

: 等级

104: 积分

5: 粉丝

4: 获赞

3: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

随机生成验证码，如果超过三次错误稍后重试！！！
叭你们豆沙了: [code=python] import random def getCode(): code = '' for i in range(4): num = random.randint(0, 9) alpha_u = chr(random.randint(65, 90)) alpha_l = chr(random.randint(97, 122)) code += str(random.choice([num, alpha_l, alpha_u])) return code ret = getCode() print(ret) [/code]
一个简单的逻辑实现学生信息管理系统
叭你们豆沙了: [code=python] # 不区分大小写，为空或者输入错误次数查过三次退出稍后重试 import random count = 1 while True: code = '' for i in range(4): num = str(random.randint(0,9)) l_alphant = chr(random.randint(97,122)) u_alphant = chr(random.randint(65,90)) index = random.randint(0,2) string = [num,l_alphant,u_alphant][index] code+=string print(code) x = input('请输入验证码：') if x.strip().upper() == code.upper(): print('验证通过！') break elif x == '': if count > 2: input('输入次数过多，请稍后重试...') break else: input('验证码不能为空，请重试...') count += 1 else: if count > 2: input('输入次数过多，请稍后重试...') break else: input('请重试...') count += 1 [/code]
一个简单的逻辑实现学生信息管理系统
叭你们豆沙了: [code=python] import random count = 1 while True: code = '' for i in range(4): num = str(random.randint(0,9)) l_alphant = chr(random.randint(97,122)) u_alphant = chr(random.randint(65,90)) index = random.randint(0,2) string = [num,l_alphant,u_alphant][index] code+=string print(code) x = input('请输入验证码：') if x.strip().upper() == code.upper(): print('验证通过！') break elif x == '': if count > 2: input('输入次数过多，请稍后重试...') break [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。