经常读公众号文章的,或者在知乎关注我的同学都知道,我十分喜欢通过种种数据去揭露一个事实,而不是泛泛而谈,因为数据是不会说谎的,我以前写过很多数据分析的文章:
一直有同学向我反馈:每天看你发的数据分析的文章,心里痒痒,十分想自己也学习做一篇,不知道路人甲是否能分享一下文章中所涉及到的技术点,以及这种文章的写作思路。
我很愿意,知识应当是共享的,人是在分享中进步的,所以今天我打算说一说自己的数据分析的写作套路。
01.确定问题
首先,应该明确自己要分析的问题,比如说:
-
鉴定淘宝上的某个商品是否有刷单行为
-
鉴定华为的 P10 门有没有请水军来公关
-
国产电影的整体质量近年是否在降低?
02.数据来源
现在我们已经知道了我们要去研究怎样的问题了,下一个很重要的问题就是数据来源哪里?抓怎样的数据?抓怎样的数据可以帮我我们解释我们提出的待分析的问题。
比如说我们想研究国产电影的整体质量近年是否在降低,那我们就要想:电影的质量是否可以量化?哪里可以有这几年的国产电影的数据?显然,豆瓣电影已经帮我们做到了这一点,于是我们只需要去把豆瓣的国产电影评分等信息全都提取出来即可。
又比如我们想研究淘宝的某个商品是否存在刷单行为,那我们就要想:刷单的行为有什么特征?显然,刷单的商品评论正常都会出现:短时间内突然出现超多商品评论,并且这些评论可能有很多是一样的内容。明确这一点,我们只需要去把这个商品的所有平均数据都提取出来。
通过上面两个例子,你应该会发现:IDEA很重要,要分析怎样的问题,数据来源哪里,因此通常第一步第二步是最重要的。
如何训练这种IDEA?我的建议是:多看看别人的数据分析的文章,如果可以的话强烈建议你经常性的做头脑风暴,尤其是你无聊无事可做的时候,我经常用来打发时间。
03.数据抓取
上一步已经确定了数据来源,巧妇难为无米之炊,有了数据我们才能进行分析,所以紧接着我们就要做数据采集。早期关注就关注公众号的同学应该对数据采集并不陌生,当然如果你还不太会,可以看我之前的文章:用Python爬网页需要了解什么背景知识 。
04.数据可视化
如果说确定问题是一个婴儿的雏形,那么数据就是他的身体内部构造,而可视化就是他的外表,可视化决定着这个婴儿的外貌,决定着别人是否都喜欢你的可视化结果。
那么,如何做可视化?
如果你对Excel比较熟悉,并且你的可视化并没有涉及到太复杂的功能,那么我强烈推荐你使用Excel自带的图表功能。
如果你想要你的图表绚丽多彩,不妨试一试百度的唯一一款良心产品Echarts,图表多样并且灵活性很大,做出的也比较好看。
最后推荐一个我在每一篇数据分析文章中都用到的可视化工具Tableau,唯一的缺点是这是一个付费产品,好在如果你是学生,可以凭学生证免费使用。
05.再说一点
有很多同学说,不知道怎样的问题可以用数据来解释,怎样的问题无法用数据来解释。对此,我有一个建议:可以先抓取一些数据,对这些数据进行清理之后直接扔到 Tableau 里面,你会发现一些有意思的东西。
数据分析重点在IDEA,而这些IDEA是要经过不断的学习和思考的.