这里选择京东的商品页面,打开页面源代码查看评论来源
打开页面的检查,点击网络,刷新一下评论,选择一条评论复制,查看所在的位置
可以看到京东商品下面的评论再 comment下面的content中
开始爬取评论
具体步骤:
1.指定url网址
这里的url为评论所在地方的请求头的url
2.发送请求,访问网址
这里使用requests方法
3.获取响应数据
4.持久化存储,保存在数据库或本地
这里先爬取五页的内容,保存为“评论.txt”文件
import requests
for page in range (5):
url = 'https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1701702903029&loginType=3&uuid=122270672.1700201624854349584463.1700201624.1701691523.1701702895.4&productId=100075315791&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1&bbtf=&shield='
data = {
'productId': '100075315791',
'score':'0',
'sortType':'5',
'page': page,
'pageSize': '10',
'isShadowSku': '0',
'rid': '0',
'fold': '1'
}
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
}
response = requests.get(url=url,headers=headers)
content= '\n'.join([i['content'] for i in response.json()['comments']])
with open('评论.txt',mode='a',encoding='utf-8') as f:
f.write(content)
print(content)
查看评论内容
下面进行词云图显示
这里用python中自带的jieba库进行分词处理,将句子中的词提取出来
设置停止词,我这里设置了 stopword={'这个','很','的','用','了'}这些。将词云图生成为png图片文件
import jieba
import wordcloud
f = open('评论.txt',encoding='utf-8')
text = f.read()
txt = ' '.join(jieba.lcut(text))
print(txt)
wc = wordcloud.WordCloud(
width=1000,
height=700,
font_path='msyh.ttc',
background_color='white',
stopwords={'这个','很','的','用','了'}, #设置停用词
scale=15
)
wc.generate(txt)
wc.to_file('词云.png')
查看文件结果