Python实战：爬取小红书评论并进行情感分析

Mr 睡不醒

已于 2024-04-15 01:25:17 修改

阅读量7.6k

点赞数 40

文章标签： python 开发语言机器学习

于 2024-04-15 01:20:51 首次发布

本文链接：https://blog.csdn.net/weixin_52721112/article/details/137759776

版权

本文介绍了如何使用Python爬取小红书评论，通过requests和BeautifulSoup抓取数据，然后利用pandas进行预处理，最后应用朴素贝叶斯分类器进行情感分析。旨在帮助读者掌握网络爬虫与机器学习结合的实际应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这篇博客中，我们将探讨如何使用Python爬取小红书的评论数据，并使用朴素贝叶斯分类器进行情感分析。本教程将涵盖从数据采集到模型训练和预测的完整流程。

准备工作

首先，确保你的Python环境中已安装以下库：

pip install pandas sklearn requests beautifulsoup4 selenium

selenium需要环境搭建

爬取小红书评论

我们将使用requests和BeautifulSoup库从小红书网站上爬取评论。小红书的API需要正确设置headers和cookies才能正确响应，以下是爬取评论的关键代码片段（其实并不关键，我记得我代码里貌似是cookie里有加密，cursor可以遍历获取好像是。selenium主要就是为了解决cookie的问题太久了有点忘了看后续得代码吧）：

import requests
from bs4 import BeautifulSoup

# 配置请求头和cookies
headers = {
# 省略部分配置，详见完整代码
'user-agent': '你的User-Agent',
'x-s': '加密串',
}

cookies = {
# 根据实际情况填写cookie内容
}

# 定义爬取函数
def fetch_comments(note_id):
url = f'https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id={note_id}'
response = requests.get(url, headers=headers, cookies=cookies)
data = response.json()
comments = data['data']['comments']
return comments

# 示例使用
comments = fetch_comments('示例笔记ID')
print(comments)