Python爬虫实践《流浪地球》豆瓣影评分析及实践心得

最新推荐文章于 2022-12-01 12:03:48 发布

yyxjiu

最新推荐文章于 2022-12-01 12:03:48 发布

阅读量4.6k

点赞数 8

分类专栏：数据挖掘文章标签： python 数据分析大数据

本文链接：https://blog.csdn.net/yyxjiu/article/details/112254858

版权

本文介绍了使用Python进行《流浪地球》的豆瓣影评爬取和分析过程，包括数据下载、分析困难、爬取代码及评论的情感、数量与时间、城市分布的探索。推荐使用jupyter进行分析，并提供了安装与库导入的建议。

摘要由CSDN通过智能技术生成

一段多余的话

多余的话不多说，我想聊聊在进行实践分析中遇到的困难与心得。

下载jupyter进行分析的一些建议

我们安装juputer前，首先需要安装python，因为本人曾经上过自然语言处理课，所以已经安装完成（3.8版本）。

jupyter的下载参照官网
这里要提一点，最好将anaconda提前下载好，免得像我一样引用库时又要花费不必要的时间等待，除此之外它还能提供代码智能提示等功能。
对于驱动浏览器种类与版本的选择，我的是谷歌（87.0.4280.88）版本，，可以通过以下网址找到对应的ChromeDriver：http://chromedriver.storage.googleapis.com/index.html

数据爬取和分析时的困难

在爬取网页所需信息时，一般在目标网站中找到所需属性，利用xpath确定文档路径（一般可以通过class标签和span标签来寻找），而在获取数据的时候要注意标签里的元素，比如在爬取豆瓣短评时@class="comment-item "，中的item后面有个空格，小细节有些时候也会节省很多时间。
将数据爬取成功后输出的CSV文件有乱码，是因为默认的字符编码对中文不友好，建议改为GB18030。
在导入各种库时，推荐使用以下命令：pip --default-timeout=100 install 库名称 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com，亲测有效且更快捷

以下为爬取分析的全部代码：

1. 爬取短评数据

def get_web_data(dom=None, cookies=None): 
 	'''
    获取每页评论数据
    '''
    names = dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/a/text()')#用户名
    ratings = dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/span[2]/@class')#用户评分
    #times = dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/span[3]/@title')#发布时间
    times = dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/span[@class="comment-time "]/@title')#发布时间
    message = dom.xpath('//div[@class="comment-item "]//div[@class="comment"]//span[@class="short"]/text()')#短评正文
    user_url = dom.xpath('//div[@class="comment-item "]//span[@class="comment-info"]/a/@href')#用户主页网址
    votes = dom.xpath('//div[@class="comment-item "]//div[@class="comment"]//span[@class="votes vote-count"]/text()')#赞同数量
    cities = []
    load_times = []
    for i in user_url:
        web_data = requests.get(i, headers=headers, cookies=cookies)
        dom_url = etree.HTML(web_data.text, etree.HTMLParser(encoding='utf-8'))
        address = dom_url.xpath('//div[@class="basic-info"]//div[@class="user-info"]/a/text()')      #用户居住地
        load_time = dom_url.xpath('//div[@class="basic-info"]//div[@class="user-info"]/div[@class="pl"]/text()')      #用户入会时间
        cities.append(address)
        load_times.append(load_time)
        time.sleep(2)
    ratings = ['' if 'rating' not in i else int(re.findall('\d{2}', i)[0]) for i in ratings]     #评分数据整理
    load_times = ['' if i == [] else i[1].strip()[:-2] for i in load_times]     #入会数据整理
    cities = ['' if i == [] else i[0] for i in cities]     #居住地数据整理
    data = pd.DataFrame({
   
        '用户名': names,
        '用户居住地': cities,
        '用户入会时间': load_times,
        '用户评分': ratings,
        '发布时间': times,
        '短评正文': message,
        '赞同数量': votes
    })
    return data

from selenium import webdriver
from lxml import

最低0.47元/天解锁文章

yyxjiu

关注

8
点赞
踩
83

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录