我数据分析的套路

经常读公众号文章的,或者在知乎关注我的同学都知道,我十分喜欢通过种种数据去揭露一个事实,而不是泛泛而谈,因为数据是不会说谎的,我以前写过很多数据分析的文章:

一直有同学向我反馈:每天看你发的数据分析的文章,心里痒痒,十分想自己也学习做一篇,不知道路人甲是否能分享一下文章中所涉及到的技术点,以及这种文章的写作思路。

我很愿意,知识应当是共享的,人是在分享中进步的,所以今天我打算说一说自己的数据分析的写作套路。

01.确定问题

首先,应该明确自己要分析的问题,比如说:

  • 鉴定淘宝上的某个商品是否有刷单行为

  • 鉴定华为的 P10 门有没有请水军来公关

  • 国产电影的整体质量近年是否在降低?

02.数据来源

现在我们已经知道了我们要去研究怎样的问题了,下一个很重要的问题就是数据来源哪里?抓怎样的数据?抓怎样的数据可以帮我我们解释我们提出的待分析的问题。

比如说我们想研究国产电影的整体质量近年是否在降低,那我们就要想:电影的质量是否可以量化?哪里可以有这几年的国产电影的数据?显然,豆瓣电影已经帮我们做到了这一点,于是我们只需要去把豆瓣的国产电影评分等信息全都提取出来即可。

又比如我们想研究淘宝的某个商品是否存在刷单行为,那我们就要想:刷单的行为有什么特征?显然,刷单的商品评论正常都会出现:短时间内突然出现超多商品评论,并且这些评论可能有很多是一样的内容。明确这一点,我们只需要去把这个商品的所有平均数据都提取出来。

通过上面两个例子,你应该会发现:IDEA很重要,要分析怎样的问题,数据来源哪里,因此通常第一步第二步是最重要的。

如何训练这种IDEA?我的建议是:多看看别人的数据分析的文章,如果可以的话强烈建议你经常性的做头脑风暴,尤其是你无聊无事可做的时候,我经常用来打发时间。

03.数据抓取

上一步已经确定了数据来源,巧妇难为无米之炊,有了数据我们才能进行分析,所以紧接着我们就要做数据采集。早期关注就关注公众号的同学应该对数据采集并不陌生,当然如果你还不太会,可以看我之前的文章:用Python爬网页需要了解什么背景知识 。

04.数据可视化

如果说确定问题是一个婴儿的雏形,那么数据就是他的身体内部构造,而可视化就是他的外表,可视化决定着这个婴儿的外貌,决定着别人是否都喜欢你的可视化结果。

那么,如何做可视化?

如果你对Excel比较熟悉,并且你的可视化并没有涉及到太复杂的功能,那么我强烈推荐你使用Excel自带的图表功能。

如果你想要你的图表绚丽多彩,不妨试一试百度的唯一一款良心产品Echarts,图表多样并且灵活性很大,做出的也比较好看。

最后推荐一个我在每一篇数据分析文章中都用到的可视化工具Tableau,唯一的缺点是这是一个付费产品,好在如果你是学生,可以凭学生证免费使用。

05.再说一点

有很多同学说,不知道怎样的问题可以用数据来解释,怎样的问题无法用数据来解释。对此,我有一个建议:可以先抓取一些数据,对这些数据进行清理之后直接扔到 Tableau 里面,你会发现一些有意思的东西。

数据分析重点在IDEA,而这些IDEA是要经过不断的学习和思考的.

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值