前言:
文章主要是学习实验楼《使用Spark MLlib进行情感分析》课程后的总结,这里只简单说明,没有具体操作步骤。代码和操作步骤可去课程实践获得,也可在我的资源下载中找到(资源中除课程介绍的随机森林模型训练数据方法,我还加入了自己学习使用朴素贝叶斯模型训练数据的方法)。项目实际利用推特上的数据结合Spark MLlib实现人们对美国这两位总统的情感分析,查看在美国不同地方的网民们对于他们的看法如何。
知识点:
Spark Streaming获得持续而且无止境的数据源;
Spark MLlib情感分析;
Python 地图可视化工具Basemap;
学习分解:
第一步学习Spark Streaming如何获取Twitter数据,推荐阅读《实时分析社交媒体数据》,它后期使用的是k-means算法模型,如图:
第二步文本情感分析,先对数据分词处理;去除跟情感无关的符号、URL、停用词;再利用Word2Vec将单词转换成向量,最后读入预先训练好的文本向量化模型word2vecM,创建RDD对象,利用sp