python爬取商品评论制作词云图

最新推荐文章于 2024-05-22 10:24:02 发布

Z.xh

最新推荐文章于 2024-05-22 10:24:02 发布

阅读量784

点赞数 4

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_51575130/article/details/134781452

版权

这里选择京东的商品页面，打开页面源代码查看评论来源

打开页面的检查，点击网络，刷新一下评论，选择一条评论复制，查看所在的位置

可以看到京东商品下面的评论再 comment下面的content中

开始爬取评论

具体步骤：

1.指定url网址

这里的url为评论所在地方的请求头的url

2.发送请求，访问网址

这里使用requests方法

3.获取响应数据

4.持久化存储，保存在数据库或本地

这里先爬取五页的内容，保存为“评论.txt”文件

import requests

for page in range (5):
    url = 'https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1701702903029&loginType=3&uuid=122270672.1700201624854349584463.1700201624.1701691523.1701702895.4&productId=100075315791&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1&bbtf=&shield='
    data = {
        'productId': '100075315791',
        'score':'0',
        'sortType':'5',
        'page': page,
        'pageSize': '10',
        'isShadowSku': '0',
        'rid': '0',
        'fold': '1'

    }
    headers={
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
        }
    response = requests.get(url=url,headers=headers)
    content= '\n'.join([i['content'] for i in response.json()['comments']])
    with open('评论.txt',mode='a',encoding='utf-8') as f:
        f.write(content)
    print(content)

查看评论内容

下面进行词云图显示

这里用python中自带的jieba库进行分词处理，将句子中的词提取出来

设置停止词，我这里设置了 stopword={'这个','很','的','用','了'}这些。将词云图生成为png图片文件

import jieba
import wordcloud
f = open('评论.txt',encoding='utf-8')
text = f.read()
txt = ' '.join(jieba.lcut(text))
print(txt)
wc = wordcloud.WordCloud(
    width=1000,
    height=700,
    font_path='msyh.ttc',
    background_color='white',
    stopwords={'这个','很','的','用','了'},  #设置停用词
    scale=15
)
wc.generate(txt)
wc.to_file('词云.png')

查看文件结果

Z.xh

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
python爬取商品评论制作词云图

这里选择京东的商品页面，打开页面源代码查看评论来源打开页面的检查，点击网络，刷新一下评论，选择一条评论复制，查看所在的位置可以看到京东商品下面的评论再 comment下面的content中开始爬取评论。
复制链接

扫一扫