python爬取商品评论制作词云图

这里选择京东的商品页面,打开页面源代码查看评论来源

打开页面的检查,点击网络,刷新一下评论,选择一条评论复制,查看所在的位置

可以看到京东商品下面的评论再 comment下面的content中

开始爬取评论

具体步骤:

1.指定url网址

这里的url为评论所在地方的请求头的url

2.发送请求,访问网址

这里使用requests方法

3.获取响应数据

4.持久化存储,保存在数据库或本地

这里先爬取五页的内容,保存为“评论.txt”文件

import requests

for page in range (5):
    url = 'https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1701702903029&loginType=3&uuid=122270672.1700201624854349584463.1700201624.1701691523.1701702895.4&productId=100075315791&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1&bbtf=&shield='
    data = {
        'productId': '100075315791',
        'score':'0',
        'sortType':'5',
        'page': page,
        'pageSize': '10',
        'isShadowSku': '0',
        'rid': '0',
        'fold': '1'

    }
    headers={
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
        }
    response = requests.get(url=url,headers=headers)
    content= '\n'.join([i['content'] for i in response.json()['comments']])
    with open('评论.txt',mode='a',encoding='utf-8') as f:
        f.write(content)
    print(content)

查看评论内容

下面进行词云图显示

这里用python中自带的jieba库进行分词处理,将句子中的词提取出来

设置停止词,我这里设置了 stopword={'这个','很','的','用','了'}这些。将词云图生成为png图片文件

import jieba
import wordcloud
f = open('评论.txt',encoding='utf-8')
text = f.read()
txt = ' '.join(jieba.lcut(text))
print(txt)
wc = wordcloud.WordCloud(
    width=1000,
    height=700,
    font_path='msyh.ttc',
    background_color='white',
    stopwords={'这个','很','的','用','了'},  #设置停用词
    scale=15
)
wc.generate(txt)
wc.to_file('词云.png')

查看文件结果

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值