1 概述
数据类有多火就不多说了,数据和数据分析在生活中的实用性和重要性都是不言而喻。正是由于此类的原因,利用业余时间自学了一段时间的数据分析。
刚开始的时候,面对多如牛毛一样信息,感觉像是狗咬刺猬,无处下口。经过大约几个月的摸索,大概有了一定的了解。想着记录自己的学习历程能够帮助自己学习,或许也能够給相同境遇的人提供帮助,共同学习进步。于是乎,回过头来整理下自己的学习,借用狼人杀的话说就是将自己的心路历程记录与此,以兹共同进步。入门不久,道行尚浅,如有错误,不吝赐教。
2 数据分析知识学习路线
数据分析是什么呢?百度如是说:
数据分析是指用适当利用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
概括成一句话就是分析数据,得到结果。所以需要学习的东西为分析数据的方法。
2.1 知识构成
这里记录的是利用 Python 进行数据分析的情况,基于目前的认知 (后续可能修改),大体上需要的知识构成为:
- 数学知识
- Python 基础知识
- Python 数据分析包使用
进阶部分,需要掌握的知识有:
- 爬虫
- 机器学习和深度学习
- 大数据
2.2 数学知识
由于本人为理工男,这一部分略过了。目前来看,需要的知识主要为 《概率论与数理统计》。
2.3 Python 基础知识
由于只需要掌握计算部分的知识,Python 的基础知识需要了解以下内容:
- 基本语法
- 数据类型和变量
- 条件语句和循环语句
- 函数和模块的概念
这里推荐两个教程:
2.4 Python 数据分析包
主要掌握 Python 相关数据分析包的使用,包括 Numpy/pandas/matplotlib 等。这也是需要重点掌握的内容。参考的书为《利用 Python 进行数据分析》。当时看完该书感觉学到了很多,然后过几天就忘记了。所以这部分的学习内容主要是练习各个包的使用,特别是 Pandas 包。另外,看书不练手往往使会使得自己很疑惑,不知道数据分析具体的工作内容到底是什么。为此,我爬取了一些数据,练习了几个数据分析,记录在后续的文章中。
2.5 进阶知识
大部分时间都花在学习这方面的内容,根据各人的基础不一样,感觉这部分学习可以稍后,可以主要学习前面的内容。大概记录下自己的学习过程。
2.5.1 网页爬虫
爬虫的话主要参考两个内容:
- MOOC 公开课:Python网络爬虫与信息提取
- 静觅博客
看完上述两部分内容后,爬取了几个网站的内容练手,也是后续文章中用于练手的数据来源。
2.5.2 机器学习和深度学习
断续看了三本书,推导了机器学习的常用算法。三本书为:
主要参考的是两本中文书,第三本书看了部分内容,推导了常用的算法 (预想之后以简洁的不带公式的方式介绍这部分内容)。个人觉得不是做相关方面的研究者,只需要大体上掌握各类算法原理以及如何利用机器学习包。后续文章会有利用机器学习包实现数据分析的内容。
关于深度学习的话,目前还没有系统的学习,零碎的了解了一下。深度学习就是各种神经网络如何解算的问题。经过简单学习,认为最适合新手的深度学习包为 Keras。(待续)
2.5.3 大数据
大概瞄了下 Hadoop 权威指南。(待续)
3 小.结
这里总结了大概上的学习历程,在后续的文章中将具体记录自己练手的例子。建议学习程度到了 《利用 Python 进行数据分析》 这一步,再去涉及相关实例。