R语言对京东商品进行文本爬虫
电商产品评论数据情感分析
2021/5/11 数据科学实验笔记 周三
随着电子商务的迅速发展和网络购物的流行,人们对于网络购物的需求变得越来越高,也给电商企业带来巨大的发展机遇,与此同时,这种需求也推动了更多电商企业的崛起,引发了激烈的竞争。而在这种激烈竞争的大背景下,除了提高商品质量、压低价格外,了解更多消费者的心声对电商企业来说也变得越来越有必要。其中非常重要的方式就是对消费者的评论文本数据进行内在信息的分析。
评论信息中蕴含着消费者对特定产品和服务的主观感受,反应了人们的态度、立场和意见,具有非常宝贵的研宄价值。一方面,对企业来说,企业需要根据海量的评论文本数据去更好的了解用户的个人喜好,从而提高产品质量,改善服务,获取市场上的竞争优势。另一方面,消费者需要在没有看到真正的产品实体、做出购买决策之前,根据其他购物者的评论了解产品的质量、性价比等信息,为购物抉择提供参考依据。
1. 获取数据
即如何使用R进行爬虫
步骤
1、在官网下载google chrome浏览器并安装
2、在该浏览器打开“京东商城”,
并在京东商城网页右上角位置找到“Web开发者工具”按钮。
3、打开网络(Network)面板,再点击京东商城网页中的评论项,找到评论项的网址(URL)。
详细步骤:
1)打开京东商城 选择一个商品【以小米手机K40 PRO 为例】
2)打开该商品页面,并打开评论区域
3)打开开发者工具
4)点击代码页面里面的 network
5)点击网页页面里面的 “好评”
6)点击代码框里面 “好评ProductPageComment” 的选项
7)点击“Headers”
得到URL如下:
Request URL: https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100018642156&score=3&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1
接下来在R中输入代码:
(如果第一次使用,要下载#后面所示的两个包)
# 代码 8-1 京东商品文本爬虫
# 设置工作目录
#setwd("F:/第8章/01-任务程序")
# 对一个URL进行测试,注意网络打开状态
url <- 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv80998&productId=1106432&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&rid=0&fold=1'
#url <- 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100018642156&score=3&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
# 加载需要的包
#install.packages("RCurl")
#install.packages("jsonlite")
library(RCurl) # 需要使用getURL函数
library(jsonlite) # Version:1.5 需要使用fromJSON函数
# 读取网页源码
web <- getURL(url, .encoding = 'GBK')
—————————————————————————————————
(其中到这一行代码一直报错,如下所示: