酒店评论情感分析,亲妈级教程

酒店评论情感分析,采集与分词篇

开篇吐槽一下下。

类似携程这种生活类网站,还有电商类网站,不是驻守被爬的城墙内就是在反爬的道路上行走。不断的更新加密,批量化的采集不断破解并升级程式,并在网络之上布施教程,小白们熬夜拼命的学习。

做一个流水线般的案例示意

采集工具:八爪鱼

采集平台:携程

采集酒店:浙江饭店

我电脑没有开位置权限,打开浏览器进入携程直接选择的杭州,本想着找一个评分以及人气不错的酒店。因为酒店的人气与评分不错的情况下,意味着除了携程网站之外的互联网世界检索相关词的概率会高上许多,并且杭州是一个旅游城市,少不了在类似搜一搜这些平台检索一些攻略教程,从而获取一些微不足道的曝光与被动搜索,我这里很多文章来源流量95%来自于被动检索,这涉及SEO以及用户需求与本文主题无关。

错误:刚开始直接找到杭州浙江饭店直接复制链接至八爪鱼采集工具

在打开网页-登录-点击评论元素-网页识别-页面翻页至尾部会自动跳转到杭州酒店列表,所以步骤不可取。

然后我去酒店翻了一下视频教程

可以从第一张图片看到

输入网址-网页识别-取消识别-登录

这里要注意一下啊,登录之后要看右边的采集流程图,再次添加一个打开网页并且把之前复制的网址重新输入一遍,在采集流程下高级选项选择载入Cookies并应用。

网页窗口鼠标拖动进度条,翻页按钮点击一下下,设置翻页按钮。

最后点击第一条酒店评论空白处,全选后保存-采集-采集数据就可以啦!

下面这张图是正在采集。

采集杭州浙江饭店携程酒店评论完成并导出表格文件中

复制了一份酒店评论到文本文档格式,保存编码为ANSI,不然ROST Content Mining System不支持。

打开ROST软件就是上图界面,功能性分析有一个分词,找到酒店评论文本格式路径打开。

这是用ROST分词,分好词的酒店文本

依旧是功能性分析,分词下面有一个词频统计,点击并通过路径打开已经分词的酒店评论文本。

这就是结果,并无什么关系对吧!

因为,我们没有设置分词,用ROST软件自带是不行的,我们需要自行设置。

看上面图-ROST软件工具-自定义文件-分词自定义图表

这个文档需要重新设置修改,完成后保存,在下次分词之前,依旧是ROST软件,工具菜单栏-自定义文件-重载自定义图表​才可以生效的哟!

篇幅有限写不完,也没有太多时间​。

最近有太多私+,我这边不+友的请知悉,有事留言​。

​༺༒༻

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于酒店评论情感分析的机器学习任务,你可以采用以下步骤: 1. 数据收集:收集带有情感标签(正面、负面或中性)的酒店评论数据集。可以通过爬取网站、使用公开可用的数据集或者购买商业数据集来获取数据。 2. 数据预处理:对采集到的数据进行清洗和预处理,包括去除噪声、停用词过滤、词干化(stemming)或词形还原(lemmatization)等操作,以及将文本转化为机器学习算法可以处理的数字表示形式,如词袋模型(bag-of-words)、TF-IDF、Word2Vec等。 3. 特征提取:从预处理后的数据中提取有用的特征。常用的特征包括词频、句子长度、情感词汇、情感强度等。 4. 模型选择和训练:选择合适的机器学习模型进行训练。常见的模型包括朴素贝叶斯(Naive Bayes)、支持向量机(Support Vector Machine)、决策树(Decision Tree)、随机森林(Random Forest)、逻辑回归(Logistic Regression)等。可以尝试多个模型,并使用交叉验证等评估方法选择最佳模型。 5. 模型评估:使用测试集对训练好的模型进行评估,常用的评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1-score等。 6. 模型优化:根据评估结果对模型进行优化,可以尝试调整模型参数、增加更多的特征、改变特征提取方法等。 7. 预测:使用优化后的模型对新的酒店评论进行情感分析预测。 需要注意的是,为了提高模型性能,可能需要更多的数据、更复杂的特征工程和更先进的模型。同时,情感分析是一个主观性较强的任务,不同人对于同一评论可能有不同的情感判断,因此模型的性能可能存在一定的局限性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值