爬取豆瓣电影前十页的好评一般差评

本文介绍了如何爬取豆瓣电影页面的评论,通过分析评论星星数量来区分好评、一般和差评。爬取地址为https://movie.douban.com/subject/26588308/comments,关键在于识别评论span标签的class,根据星星个数(5-4颗星为好评,3颗星为一般,2-1颗星为差评)进行分类。
摘要由CSDN通过智能技术生成

分析一波

爬取的地址:https://movie.douban.com/subject/26588308/comments

分别找出好评、一般、差评的评论:

image-20211130154457028

  • 通过地址栏分析,评论的类型和percent_type有关
    • 好评为h
    • 一般为m
    • 差评为l

image-20211130154726703

但是我们想找的是在全部里面寻找好评一般和差评,所以这种方法就不适用了。

但是我们发现每个评论都会有小星星,星星的个数就可以区分评论的类型了。

  • 好评为5颗星或4颗星
  • 一般为3颗星
  • 差评为2颗星或者1颗星

image-20211130155101034

这里对应的标签为span(class就是星星的个数)

image-20211130155249923

所以可以获取到每一个comment-item,然后判断里面allstarXX是多少,再把评论分类就可以了。

代码

#找出10页里的好评,一般或差评
import urllib.request
from bs4 import BeautifulSoup
import time


absolute = "https://movie.douban.com/subject/26588308/comments"
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36',
}
comment_list_h = []  #好评
comment_list_m = []  #一般
comment_list_l = []  #差评


#解析html
def get_data(html):
    soup = BeautifulSoup(html,'lxml')
    if soup.string != None:
        return 0
    else:
        div = soup
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值