微博数据集来源可以参考微博
词云、位置
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DULFFJ
1.用spark简单处理json数据集,去重得到数据集中的用户手机品牌,分类获取品牌中的苹果手机品牌数量以及android品牌的数量,代码如下:
2.将处理完成的数据上传到hdfs上,spark处理会产生很多小文件,这里限制了repartition为2,以及将hdfs文件合并成一个的程序,如图:
3.将hdfs上的手机数据、苹果手机数据、安卓手机数据,导入数据仓库hive中,hive-shell中操作如下:
create table weibo_phone(phone string) ;
load data inpath './jack/phone.txt' overwrite into table weibo_phone;
select * from weibo_phone limit 50;
将hive中的数据导入对应的mysql数据库中,实现数据可视化,这里用到sqoop组件。