基于Spark Streaming和Spark MLlib实现文本情感分析

本文总结了使用Spark Streaming从Twitter获取数据,结合Spark MLlib进行情感分析的过程,以及如何利用Python的Basemap进行结果可视化,展示了如何分析美国网民对总统的看法。
摘要由CSDN通过智能技术生成

前言:

文章主要是学习实验楼《使用Spark MLlib进行情感分析》课程后的总结,这里只简单说明,没有具体操作步骤。代码和操作步骤可去课程实践获得,也可在我的资源下载中找到(资源中除课程介绍的随机森林模型训练数据方法,我还加入了自己学习使用朴素贝叶斯模型训练数据的方法)。项目实际利用推特上的数据结合Spark MLlib实现人们对美国这两位总统的情感分析,查看在美国不同地方的网民们对于他们的看法如何。

知识点:

Spark Streaming获得持续而且无止境的数据源;

Spark MLlib情感分析;

Python 地图可视化工具Basemap;

学习分解:

第一步学习Spark Streaming如何获取Twitter数据,推荐阅读《实时分析社交媒体数据》,它后期使用的是k-means算法模型,如图:


第二步文本情感分析,先对数据分词处理;去除跟情感无关的符号、URL、停用词;再利用Word2Vec将单词转换成向量,最后读入预先训练好的文本向量化模型word2vecM,创建RDD对象,利用sp

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值