前言
六年程序员,擅长.net开发,开发过C/S、B/S、大数据项目,研究过图像识别、机器学习技术,也做过硬件运维。三十而立之年,转行数据分析师,重拾激情,再踏征程。 此为第一篇博文,下述为自己近期实践中的一些浅显的认识,望拍砖讨论。
数据分析思维
数据分析师本质上是数据的探索者。广义上的数据分析包括提出问题、数据获取与存储、数据清洗、数据挖掘、结果呈现等过程,将杂乱的或未加工的数据源转换成有用的信息。数据分析思维,就是引领数据分析项目整个生命周期的指导思路和经验素质。
比如寻找数据源,并判断其价值:这些数据集的数据质量有多好?它们与你的目标是否相关?能否找到更好的数据源?
比如权衡数据存储格式:数据可以存储成许多不同的格式和文件类型,某些格式存储的数据很容易被机器处理,微软的 Word 文档属于后者,而 CSV、 JSON和 XML 文件则属于前者。再进一步,数据是否有必要存入数据库?选择关系型数据库还是非关系型数据库?
数据分析技术
作为数据分析师,不仅要锻炼思维,还要苦修技能,要学会综合运用各种技术和工具,个人能想到的都列在下方:
数据获取与存储技术
爬虫技术、数据库技术(MySQL、MongoDB等)、ETL工具(如