EMPS:个人做数据分析处理的4重境界

导读

自从事数据科学行业以来,便每天在与各种数据处理打交道,当然这里的数据处理是多方面的:既有数据采集和读写,也有数据清洗与变换,当然还有数据分析和挖掘。从主用工具的角度来看,大体上经历了这4重境界:Excel->MySQL->Pandas->Spark,姑且就称之为EMPS吧。

个人数据分析与处理经历的4重境界

对照这4种数据处理工具,计划开展系列学习与对比推文,本期做为开篇之作,仅做以概要介绍。

4种工具严格来讲其实并无实质性联系,除了它们都可用于基本的数据分析与处理。相对而言:

  • Excel,几乎零学习门槛,应该是所有职场人都掌握的通用办公软件,但对于一名数据从业者而言,它可以占据一席之地(曾经数据分析师的入门套餐就是ESP,即Excel+SQL+Python)。个人对Excel的比较喜欢的一点是内置了常用的数据处理函数、支持数据透视表以及方便制作可视化图表等,但也仅适用于小量数据,基本上上万条以上记录用Excel就难免有些捉襟见肘了;

  • MySQL,作为最流行的关系型数据库之一(当前关系型数据库行业生态可概括为2+2+1,即2付费Oracle+SQL Server,2开源MySQL+PostgreSQL,以及多平台内置的Sqlite),MySQL常常是众多高校开设数据库课程的首选(地位就好像编程语言中的C一般)。个人曾经一度刷SQL题几百道(参考一名数据分析师的SQL学习历程),对于写SQL方面也算悟得精华,但对于诸如索引、事务、引擎等进阶要求仍有欠缺,不过最近用SQL也是越来越少了;

  • Pandas,作为个人入门Python之后学习的最重要的库,潘大师曾经一度是我数据分析的主力,也着实解决了我实际工作中的不少问题,还整理了很多数据分析的小技巧(详见这一年,我总结了这些Pandas小技巧……)。一直认为,在千万级以下数据量的场景中,Pandas是最好的数据分析工具,没有之一……

  • Spark,当数据量超过千万数量级时,Pandas的处理效率就会肉眼可见的变慢不少,此时Spark这款分布式计算处理框架堪称是最佳替代品。当然,Spark的舞台绝不止于Pandas所擅长的离线批处理场景,机器学习、流处理以及图计算等都是Spark的独门绝技。为了用好Spark,个人不仅系统学习了相关入门课,还专门大费周章的学习Scala语言(Scala入门系列终章:类与对象),只因Spark与Scala才是绝配。

就像世界上没有最好的编程语言一般(当然,PHP除外 :D),数据分析也不存在最好的处理工具,所以这4种工具也并无高下之别,灵活运用合理搭配方能最大化其效用。也正是基于此朴素思想,后续将推出各工具对比学习系列推文,以Pandas与Spark.sql对比为主,MySQL和Excel也会视情加入。

相关阅读:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值