Spark项目之简书百万用户动态分析与查询展示

源码:https://download.csdn.net/download/zhangmy12138/11141495

致写到了 第一个图型;可以下在后自行补充

 

先看下数据分析的结果大概长什么样!

这个项目主要是对简书所有用户的动态做分析。

0.分析什么

说是对动态做分析,啥是动态?就像你微信朋友圈的发表、点赞、评论、被评论一样。你在简书的操作也被记录下来啦,像这样:

简叔CEO简叔的动态

在简书的可见动态分为八种类型:发表评论,喜欢文章,赞赏文章,发表文章,关注用户,关注专题,点赞评论,关注文集 。

1.数据从哪里来

当然还是用jsoup写爬虫代码来简书抓了,一个个复制粘贴是不可能的,要又要不到,只能写爬虫来抓啊,这样子才能维持数据来源……

看,蛮快的!数据嗖嗖的就来了,还不是美滋滋~

爬数据保存到Mysql数据库

2.分析过程

采用Spark Sql定期对数据库中的最新数据进行分析,将分析结果再次保存回数据库(存放在一些新的表中)。

3.分析结果

使用SSM框架搭建一个搜索页面,用户输入任意一个简书用户的ID,可以查询出该用户的各类动态分析结果(结果采用ECharts展示)。

======

先以简叔为例吧,记得刚注册简书,就收到一个私信,我还以为哪妹子看上我了!
嗯,扯远了。咱还是来认(hu)真(luan)分析一下数据吧。

3.1基本信息

截止至2017-08-20 18:32:11,也就是我现在码这段字的前几秒。简叔关注了2346个用户(说好的上限1000呢~)。粉丝87137个,粉丝排行榜前几名啦。
发表文章122篇,收获喜欢30137,喜欢文章11292,嗯?点了那么多喜欢?
发表评论8454次,打赏文章2128次。

3.2 第一次


随着动态越来越多,因为动态按时间倒排,你可能翻了跟多页还是不知道你在简书第一个关注的用户,喜欢的文章,发表的评论。没关系,我记得(能快速找出来……)!

咱们看看简叔的第一次!

2012-09-05 11:26:57
注册,加入简书。

(我以为是第一个注册用户,去抓下来的用户中查了下,larryzhao是2012-09-05 11:08:37注册的,早十几分钟。看了介绍,这个也是简书联合创始人。应该没有比这早了的吧)

2012-12-20 15:31:53
第一次发表文章:价值主张的工作表

2012-12-13 17:19:31
第一次喜欢文章:简书发表的献给写作者的 Markdown 新手指南

2013-05-23 05:36:28
第一次关注用户:赵云波

2013-12-08 11:40:56
第一次对文章 为什么你应该每天写作 评论:
“我觉得哪怕真是有兴趣,要坚持每天写作也是非常困难的事情。一周写上一篇,或者一个月写上一篇,这种才是休闲活动。「每天写作」这个行为绝不可能成为一项「休闲活动」。可以做到「每天写作」的人,要么他是一个真正从事文字工作的人,要么他对「每天写作」这件事情有一种强迫症。”

嗯,同意简叔3.6年前的观点。天天喊着「每天写作」大都是文字工作者。上班族们,不要一听别人的鼓动就给自己立个誓,到时候打脸的可是自己啊!一天记流水账似的一篇,干嘛,感动自己啊?

2014-03-27 12:37:08
第一次关注文集:社区的艺术

文集这个概念在别的用户浏览的时候好像不是那么重要,所以一般关注文集较少或没有。

2014-07-30 06:13:35
第一次关注专题:毒眼寻珠

2015-03-30 11:47:11
第一次打赏文章 :刘淼 发表的20150318村上问答之「我的生活正发生怪事」

2015-07-27 17:01:30
第一次赞了评论: 我的比较波折,第一次发被快递的临时工搞丢了,简书服务不错,帮我和中通交涉,中通赔了钱,后来补发了一份。书看完一本了,还不错诶,好评!
这个文章已经不在了,文章应该是关于简书出版的书。

3.3 各种动态占比

动态类型占比.gif

喜欢文章、发表评论、关注用户、赞赏文章,这四种占比较高,说明简叔还是很关注和支持简书的用户创作。

3.4月度动态趋势

月度动态.gif

总体呈波段上升趋势,简叔在简书平台还是很活跃的。

3.5 日动态趋势

自注册以来,每天的动态次数。像这样,密密麻麻

峰值是 2016-01-04,这天动态次数212次。因为图较大,降低了帧率,所以看起来有些卡顿。

3.6 时动态趋势

如果按11点以后算熬夜的话,可以看出简叔还是有不少熬夜情况的。大叔,注意身体!

白天各个时间段浏览简书较均衡,毕竟是老板,没有确切的工作时间段。有事没事刷下简书!

3.7 周内发表文章频次

发表文章.gif

圆形气泡越大,代表发文章频率越高。简叔非工作时段发文还是蛮多的。
其他用户分析的,文字工作者一般都是集中在周一到周五,上班族周六周日更集中一些。
要想诗和远方,还是要先解决眼前的苟且。

3.8 周内喜欢文章频次

喜欢文章.gif

啊!什么鬼?一个个连续的饱满的小球。09:00-15:00,21:00-0:00。这两个时间段内简叔喜欢文章很频繁,下午少一些。

3.9 周内关注用户频次

关注用户.jpg

早上关注用户多一些?

3.10 周内打赏频次

打赏.jpg

晚上打个赏?

3.11 发表的评论

对所有评论进行分词,词频统计后制作出词云,然后……

评论词云.gif

哈哈哈,简叔天天好开心啊!!!

愿大家都有简叔的心态!!
你还愣着干什么?笑啊!

https://blog.csdn.net/u012940753/article/details/51254091


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值