![](https://img-blog.csdnimg.cn/20190918140053667.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
杂谈
基于生活实践的趣味数据分析案例。
用统计方法观察身边的现象、解决身边的问题。
老身聊发少年狂
这个作者很懒,什么都没留下…
展开
-
R、tableau、excel/ppt作图比较
之前写过一些可视化的文章,绘图用的是R和tableau,今天把office两件套加上,总结下三者的应用场景。小数据+常规图形,office系列就可以,“小”、“常规”如何定义?能即刻出图则算小,至于常规,点击插入图表,可选的就是,如下图。它们是经典统计图的稍变形和多种统计图的复合(一般也不会很多),最典型的特征就是简单:绘制简单,理解简单。现在有一些比较成熟的小插件,如islide和EasyShu,结合起来使用更香。数据是实时更新的,图表之间是有关联的,分析模式已经比较固定,有这类需求的,选tab原创 2020-10-11 15:36:39 · 1173 阅读 · 0 评论 -
数据挖掘在舆情分析中的应用,我们是怎么看《后浪》和《非浪》的(一)
五四期间,B站推出宣传片《后浪》,引发了热烈的讨论。很多观众认为,视频中所展现的光鲜亮丽的“后浪”生活,并不能代表时下年轻人负重苦逼的真实状态,明明是最倒霉最内卷的一代,却被认为是最有选择最有机会的一代。接下来几篇文章,我将从数据分析的角度来挖掘这一事件,所有数据均爬自于小破站涉及两个视频:《后浪》和《非浪》具体包括视频评论、弹幕、用户信息等分析方法主要是非文本分析(比如评论量趋势,用户属性分布、俩视频信息对比等)文本分析(词频统计,主题聚类,情感分析等)用到的工具有:Python原创 2020-05-16 22:37:27 · 867 阅读 · 0 评论 -
从肖战专辑《光点》的销量谈起,简析完美数据中的bug
一张专辑,一首歌,四天不到,“一个亿的小目标”就这样轻松达成。我恰柠檬了,作为一个酸精,今天就借这篇文章来挑一挑这“一个亿”的刺。数据源自于【微博肖战数据站】,时间从2020/4/25 10:00:00到2020年4/26 22:30:00,大概每小时更新一次,累计销售额8000万+,可惜并没有更新到破亿,如果读者有相关数据资料,能提供就最好啦。整理后的销售量如下:我要做的分析很简单,找b...原创 2020-05-04 12:45:45 · 24817 阅读 · 0 评论 -
新冠疫情对20年校招的影响分析——以某高校就业信息网数据为例
受新冠肺炎疫情的影响,今年绝壁是求职最最艰难的一年,就算有政策扶持,可就连相对easy的“校招”也成了hard模式,年前辞职的考研失利的秋招未落实的萌新们,要哭晕在厕所。疫情对校招的影响究竟有多大?咱们通过某高校就业信息网数据的来量化这个问题。先获取数据,这是某高校的就业信息网,校内宣讲部分的信息完全是停滞状态,在线招聘部分发布了一些招聘信息,就爬取这部分数据。爬虫整理成如下格式,共81...原创 2020-04-29 23:32:28 · 1436 阅读 · 2 评论 -
疫情下的数据技术应用——基于轨迹分析的风险预警
前几天去了一趟武汉,管制依然严格,所有区域实行分块管理,每过一个关卡都要扫码以记录个人的行动轨迹。就是上面这样,每扫一次码就形成一条id+时间+站点+标注的记录,表示某人某时在某地干了啥事。这个数据可以用来做疫情预警,当然,这里只是粗浅地谈谈思路,实际应用会复杂很多。比如说道德风险,有些地方扫码全凭自觉,数据未必是完整的;还比如行为的模糊性,我们真正关注的是一段时间内人的行为,但这些数据记录...原创 2020-04-18 22:25:53 · 1151 阅读 · 0 评论 -
公考之申论话题分析——基于词云和主题聚类
随着今年的疫情这么一闹,本就热门的公考定然比以往更让人关注。这篇文章就聊聊申论,用文本挖掘的方式来分析话题重点。这是一个整理了一些申论范文的网站,我将从这个地方爬下全部数据。...原创 2020-03-31 12:10:32 · 778 阅读 · 0 评论 -
从统计回归的角度看,豆瓣500热评真得有代表性吗?
上次写了一篇关于《北灵少年志之大主宰》的短评分析链接1,用热评500是在无法取得完整短评下不得已为之的结果,现在咱们来重申一个问题,豆娘放出来的短评top500,是真得能代表全体的意见领袖吗?考虑用多元线性回归和CART回归树来进行验证。原创 2020-03-05 11:05:45 · 312 阅读 · 0 评论 -
国考有多难,岗位可选概率 61/13849(千分之四点四)
听说今年的国考特别不利于我等往届理工科屁民。空有满满一腔报国热情,无奈人家是看都看不上。真的有这么坑吗?咱们现在就来看看,就以本屁民为例。今年的招聘简章,一个xls文件,包含4个sheet,基于一模一样的格式,完全可以合并为一张总表,便于后续的筛选。13849行,对应全部13849个岗位。接下来就是筛选过程:首先是专业,今年对专业的要求细化了很多,如果不是实在没得选,就先以它作为岗位过...原创 2019-10-20 13:29:07 · 208 阅读 · 0 评论 -
每天“考”一次科目三,下次还不给我过?
科目三,三位考生,考试车辆行进最远不足200m是什么概念?基本上起步就挂了,可怜咱连体验别人合格的机会都没有,甭说自个了。为了下次轻松过,脑子必须得提前多动了,这次就是血淋淋的教训啊。先说路线,3条,正常情况下是随机分配,因此每一条都可能被抽到,必须都要准备着。而且三条道几乎共用,只是顺序不同,特别容易混淆。特画了3幅示意图如下:...原创 2019-09-16 18:02:49 · 179 阅读 · 0 评论 -
水逆了一整年的王源,2020年年初能靠《大主宰》翻身吗?
《大主宰》,典型的流量+大IP模式,2020-01-30以来上线15天,豆瓣短评达13633 条,但迟迟没开分,想知道口碑究竟如何,索性用500条热评来窥一窥豹。源数据是从《大主宰》豆瓣主页爬取的热评500条,为什么是500?因为官方开放给读者的就这么多,作为最热门的“意见领袖”,还是有一定代表意义的。整理后的数据如下:四个分析方向:1.总的评分分布,最终(截止2020-02-14)评分;...原创 2020-02-14 21:54:06 · 892 阅读 · 0 评论