大数据和数据分析有什么区别?

企业可以通过手中的数据,或挖掘用户需求,或优化产品,或抢夺市场,或减少运营成本等等……一个优秀的数据分析师能为企业带来巨大的潜在利润。随着企业对数据分析师的需求逐年增加,数据分析师的薪酬待遇也水涨船高。

当我们打开招聘网站,看着数据分析师诱人的薪资的时候,会发现数据分析岗有“数据分析师”和“大数据分析师”之分,那大数据和数据分析有什么区别呢?

CDA数据分析研究院于2018年8月对智联招聘网站中关键字“数据分析”的招聘信息进行爬取,在对数据进行清洗后,排除了一万多条低相关度的招聘以及虚假招聘,对剩下的5706条相关招聘信息进行分析。

13825820-50213e8400aed8ee.jpg

通过对招聘信息中 “岗位职责”和“任职要求”两个字段作词频分析,我们可以得知两者的区别。

  1. 岗位职责区别

首先我们对数据分析岗位的字段“岗位职责”生成词云(涉及813条数据):

13825820-29ce1175cf1c9f78.jpg

我们可以总结出数据分析岗位的主要工作职责:

1、负责日常的需求调研、数据分析、商业分析。这过程的日常任务可能包括提交日报、周报、月报、年报等数据报表;

2、根据业务需求,制定相关数据的采集策略,设计、建立、测试相关的数据模型,从而从数据中提取决策价值。这过程可能需要撰写特定分析需求的报告;

3、研究数据挖掘模型,参与数据挖掘模型的构建、维护、部署和评估工作。

而当我们对大数据分析岗位的字段“岗位职责”生成词云(涉及508条数据),我们可以明显看到两类数据岗位的区别:

13825820-e52a2540535e3c39.jpg

我们可以归纳出大数据分析岗的主要工作职责:

1、参与大数据平台的设计与开发,解决海量数据面临的挑战;

2、精通Java编程,能基于Hadoop/Hive/Spark/Storm/HBase等构建公司的大数据分析平台;

3、管理、优化并维护Hadoop、Spark等集群,保证集群规模持续、稳定;

4、负责HDFS/hive/HBase的功能、性能和扩展,解决并实现业务需求。

  1. 从业者专业背景要求区别

通过对数据分析岗的字段“任职要求”(涉及999条数据),CDA数据分析研究院发现目前招聘需求中,对数学、统计学、计算机这三个专业背景的应聘者的需求最高,其次是经济类专业。

13825820-1ae09c870d74d4b2.jpg

而当我们对大数据岗位的专业背景作词频分析时发现(涉及658条数据),大数据分析岗位对计算机专业背景要求最高,词频几乎是统计学专业的两倍多。对数学专业的需求排第二,对经济类专业的需求极少。

13825820-fc835ed979f45428.jpg
  1. 使用分析工具区别

那两类岗位在工作中使用的软件工具有什么区别呢?

CDA数据分析研究院先对“任职要求”中的数据分析工具作词频分析(涉及999条):

13825820-f0306238e0e204b4.jpg

我们会发现将近一半的岗位要求掌握SQL语言和EXCEL,排在第三位的是当前数据科学界的“当红炸子鸡”Python。紧随其后的是传统的统计软件R、SPSS、SAS。当然也会有少部分企业要求懂得大数据平台架构软件Hadoop、Storm等。

13825820-d0fd141e0c097609.jpg

而当CDA数据分析研究院对大数据分析岗位作词频分析时发现(涉及658条),岗位要求中词频最高的是Hadoop、Spark、Hive、HBase、Storm等大数据平台工具。

超过六成的大数据分析岗要求对Java编程熟练,近三分之一岗位要求对Linux开发环境熟悉。

除了要求掌握海量数据处理的软件工具以外,Python和SQL的词频也很高,近三分之一的岗位要求掌握。但是我们能明显看到大数据分析工作中所使用的软件均偏向于大数据平台的开发和架构,要处理的数据量也远超普通数据分析岗。

13825820-2bc3ef8a42249050.jpg
更多精品内容,可到CDA数据分析师官网或CDA经管之家(原人大经济论坛)查阅
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。[2] 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。 大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。[8] 大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它 保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。[9] 其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开: 第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。 第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。 第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值