数据分析师的个人感悟

一、数据分析师特点

根据自己在一年互联网公司的数据分析经验所写,如有不足之处,可以抛出问题,一起讨论。

数据分析师是由业务和技术的结合而衍生出来的一种岗位,随着社会、企业的信息化、数字化的发展,企业对于既了解业务,又懂技术的综合性人才的需求还是比较大的,越来越多的人向这个方向发展。但从招聘者对于应聘者在该岗位的要求来看,应聘者在业务理解、认知等方面的能力要远高于技术方面的能力。这也就是导致,众多职场人从其他岗位(非对口业务岗、非相关业务技术岗)转型做数据分析师时,虽然是学习了excel、python、sql、powerbi/tableau/echarts等多方面的技术能力,但依然很难应聘到心仪的数据分析师岗位,这里主要的原因还是对数据分析的对象,即具体业务,缺乏深入的了解,面试官在面试过程中基本不会考察技术方向,当然,这里要排除包含笔试环节(笔试内容以sql为主)的面试,是否在是笔试通过后,面试过程中就不会在考察技术了,这还有待考证。面试中考察更多的是过往经历中数据分析的实践、对于应聘岗位业务的认知等方面的内容。如何破解该问题?从哪方面入手,我会在后续逐步探索、介绍。我接着说一下对于专业的限制,在国内学科分类中并没有数据分析的专业,所以在招聘要求中对于专业的要求更多是数学、计算机、统计学等相对有关联的专业,整体上来看,在专业上不要有太多的顾虑,理科、工科即可。

二、技术要求

然后的话,从数据采集到数据分析报告的整个流程中,所用到的数仓数据库数据分析数据可视化成果呈现数据产品化等方面技术,我在一一介绍一下。

2.1 数仓

首先是数仓ETL工具,这部分的内容,数据分析师可以了解一些,在高度分工的大厂里,这部分是由数仓团队来完成,而部分公司可能需要由数据分析师来做。ETL是包括数据的抽取、转换、加载等,市面上ETL工具还是比较多的,通过在网络的调研来看,大家普遍推荐的Kettle,现在叫PDI,不过网上论坛等还是以Kettle居多。作业、转换是kettle的两个主要设计组成,其中,转换完成针对数据的基础转换,转换由一个或多个步骤组成,步骤和步骤之间由跳连接,转换是多线程,转换执行时,会把所有的步骤启动,一个步骤对应一个线程;作业完成整个工作流的控制,一个作业包含一个或者多个作业项,并且这些作业项都是以某种顺序进行执行的,也就是说,作业是单线程的。作业执行的顺序由作业项之间的跳(Job Hop)和每个作业项的执行结果决定。跑题一下,这样的设计理念,可以在RPA、图形化编程的设计中借鉴关于kettle的简单介绍就到这里,每个软件的设计、使用都有很多的学问在里面,我个人暂时无法系统的、全面的介绍,需要我们在实践中逐渐摸索、逐渐积累。

2.2 SQL

关于sql,这部分是数据分析师必备的技能,同时也是面试的重点,需要我们熟练的掌握,面试时可能让你共享屏幕,直接面对面写sql,主要以查为主,单行函数、聚合函数都需要熟练应用,另外的话,对于时间函数的使用,时间戳-日期格式互转,提取年、月、日家具,日期、时间加减等也是重点,大多数的数据都包含日期/时间字段。在工作中,函数、过程、视图都需要掌握,会很大程度上帮助我们解决复杂问题。关于数据库类型,现在主流的还是mysql,对于一线的互联网大厂或者一些特殊部门(如,基于流量的a/b测试实验等),会用到的时Hadoop,这块重点需要掌握的是hive 与mysql的区别,另外hive的开窗函数(常有的题目是判断一个用户连续登录天数、连续登录用户等涉及到行和行之间的逻辑关系的统计结果),以及hive调优(我理解这块可能是由于hive的查询性能较差的缘由吧,很多都sql语句都需要优化,不然,可能一条sql执行一天)这些都是比较重要的知识,需要比较熟练掌握。在高阶的hive就是写UDF了,这部分需要有java的基础。

2.3 python数据分析

关于python数据分析,这里主要以pandas模块为主。这部分面试的时候很少考到,但在工作中还是需要熟练掌握。pandas博大精深,之前在网上找的pandas视频教程看,但很多无法把pandas模块讲透彻,更多的是如何创建series、dataframe,索引、切片,读取数据等比较基础、入门的教程。建议大家在这些基础教程学完后去看看pandas的官方文档里面介绍的更加详尽,会对之后的使用有更好的帮助,在数据处理分析能力更上一层楼。如索引会包括label、position、label和position混合索引、布尔索引(这个内容比较多)等,函数的应用包括pipe、apply、agg、aggregation、applymap,这些的差异是什么?groupby的内涵是split、apply、combine。windowing operation 窗口函数等等。

2.4 数据可视化

数据可视化这部分,比较常用的托拉拽类型的有powebi、tableau、finebi等,tableau应该是最主流的,报表美观度最好的,但也是收费的,很多公司不一定有购买。我使用的是powerbi,可以实现我的工作诉求,且是完全免费的。
在做一些更加酷炫的图表的话,可以考虑用echarts来做。(需要基本了解html、css、javascript等一些前端知识)

2.5 报告呈现

领导在汇报的时候,需要的是ppt。这块需要我们掌握比较好的ppt呈现能力。

2.6 数据产品化

在你从0到1做了一段数据分析后,你会发现没有那么多可以创新的工作了,你所建立的分析模型也就那些,基本上满足了日常工作需求。这时候就要考虑到将分析模型产品化了。之前自己也是尝试做了一些数据产品化的工作,当然不是很规范,直接上来就写代码,没有写需求文档,没做好规划,这点是需要在以后开发中避免的。一定有先规划好,然后在开始写,不然会有比较大的返工,且不成体系化。在选择实现技术时,实际上大厂很多后端开发用的语言都是java,但我本人没有java的经验,且也不会往开发方向转型,就没考虑java,而是用的python django web 后端框架做的,前端是直接在网上找的已有的项目,写的项目是前后端不分离的那种,比较简陋。就我个人而言,是完全的开发小白,独立开发一个web网站,哪怕这是一个非常简单的,都是非常困难,期间也是遇到了很多的坑,不过最终也是逐步化解了。

2.7 小结

熟练的掌握了以上技术,在一般的数据分析岗位就足够了。对于一些大数据/算法的处理外还需要掌握spark、hadoop等大数据工具以及算法相关的知识,不过这块会岗位的应用会比较少,一般公司很难达到如此大的数据量。
下面从业务方面来讨论数据分析师岗位,当然不能穷尽,企业和企业之间的业务千差万别。

三、从业务角度看数分类型

具体在各大招聘网站上的招聘信息总结而得,不同类型岗位数分的主要工作内容。

3.1 运营岗

主要的工作内容包括数据监控和分析、报表体系建设、数据支持、数据产品化等方面。
当然因人而异,就我个人来讲, 这类岗位是我最不推荐去的岗位,如果是这种,大家一定要慎重考虑。

3.2 商业分析岗

主要的工作内容是内部的经营分析,以及行业研究、竞争标杆、产品调研等方面的市场研究方法论,对于产品、市场等方面的了解要求较高。
此外,这类岗位需要有比较好的专业契合度,如商业专业等。

3.3 产品分析

主要以用户行为数据分析为主,涉及到a/b测试、漏斗分析、归因分析等分析方法论,同时对于埋点、产品方面有要求。
会有相对大量的数据,如果想往大数据方向发展,这个也是有一定匹配度的。

3.4 数据挖掘

绝大多数岗位要求要了解算法,这类岗位对算法要求更高一些。没有经验的,很难入围。

3.5 实验数据分析

产品的测试数据的分析,像自动驾驶、监测仪器等等类似的。

3.6 小结

总的来讲,主要的数据分析类型是以上的五种,但这些都有一个特点,这些岗位很多都没有一个相对专一的部门在做,往往都是绿叶,需要更加侧重业务。
所以,我希望大家在从事数据分析师的工作时最好能够和自己相关的业务方向入手,以业务为主导,而不是以数据分析为主导。但,如果有算法、大数据的理论、经验等可以侧重数据分析。

四、互联网方向

如果要进军互联网的话,可以看看互联网主要的业务方向。

4.1 UGC、PGC、OGC

像字节、微博、知乎、快手…主流的产品都属于这种类型。

4.2 TOC-购物

购物类型,京东、淘宝、拼多多、聚美优品、Shopee…等

4.3 TOC-出行

现在滴滴、滴答、美团、高德(被阿里收购了)…都在这条赛道上

4.4 TOC-外卖

像美团、饿了么、百度外卖…。现在还是美团的用户比较多。

4.5 OTA-旅游

去哪儿、携程旅行网…

4.6 TOB-企业级服务

用友、易快报、金蝶、腾讯、阿里、字节…

4.7 TOC-交流

腾讯(QQ、微信)…

4.8 TOC-娱乐

  • 音乐:腾讯、网易…
  • 视频(非短视频):爱奇艺、优酷、腾讯视频…
  • 小说:微信读书、番茄小说…
  • 30
    点赞
  • 295
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值