python爬取豆瓣Top250——被识破【解决方案一：携带cookie】

最新推荐文章于 2022-11-08 14:35:55 发布

iku_ki

最新推荐文章于 2022-11-08 14:35:55 发布

阅读量717

点赞数

分类专栏： IT 学习 python 文章标签： python cookie xpath

本文链接：https://blog.csdn.net/weixin_46435234/article/details/116206636

版权

IT 同时被 3 个专栏收录

28 篇文章 0 订阅

订阅专栏

学习

28 篇文章 0 订阅

订阅专栏

python

14 篇文章 0 订阅

订阅专栏

爬取豆瓣Top250电影。

import requests #爬虫
from lxml import etree #数据解析
import csv
#头部
headers={
        'Cookie':'自己的cookie
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}
url="https://movie.douban.com/top250?start={}&filter="#url
mov_list=[] #装数据

#爬取数据保存为csv文件
fp=open(r"C:\Users\Administrator\Documents\Tencent Files\1936705477\FileRecv\test.csv","w",encoding="gbk") 
header=["电影名","评价人数"]#列名
writer = csv.DictWriter(fp,fieldnames=header)
writer.writeheader() #写入列名              
for i in range(250):
    response=requests.get(url=url.format(i*25),headers=headers)
    html=response.text
    element=etree.HTML(html)#数据解析
    
    li=element.xpath('//*[@id="content"]/div/div[1]/ol/li') #定位标签
    for i in li:
        data={}#保存一条数据
        #获取电影名称
        title=i.xpath("./div[1]/div[2]/div[1]/a/span[1]/text()")[0]
        #获取评价数
        pingjia=i.xpath("./div[1]/div[2]/div[2]/div[1]/span[4]/text()")[0]
        
        data["电影名"]=title
        data["评价人数"]=pingjia
        writer.writerow(data) # 写入数据
fp.close()        
print(mov_list)

被识破：

在这里插入图片描述

就需要用户自己去登录或注册豆瓣账号，在开发者模式中的，找到cookie，然后携带到headers请求头中。

在这里插入图片描述

headers={
        'Cookie':'自己的cookie ，
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}

iku_ki

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
3
评论
python爬取豆瓣Top250——被识破【解决方案一：携带cookie】

import requests #爬虫from lxml import etree #数据解析import csv#头部headers={ 'Cookie':'自己的cookie 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}url="https://m
复制链接

扫一扫