初入数据分析大门,感觉需要补的知识太多太多。不太建议系统补齐各种知识,因为大概率会倒在半路上。
以项目为导向,梳理大概流程,对流程中所需的知识点进行大致学习,以后遇到知识盲点再回来补。
接下来我以股票分析为例来了解数据分析流程。
个人认为股票分析无非就分为获取数据
、数据处理
、数据可视化
三个部分,依赖 Python 强大的第三方开源库,上手难度变得非常低。
所需知识
- 基础
- Python
- 环境
- anaconda
- 数据获取
- pandas_datareader
- 数据处理
- numpy
- pandas
- 数据可视化
- matplotlib seaborn
目的
- 分析股票走势
- 多只股票的关系
Python 基本语法
推荐去看廖雪峰的 Python 教程,浅显易懂,上手很快。
安装 anaconda
Anaconda是一个包含180+的科学包及其依赖项的开源Python发行版本。
安装 anaconda,直接去anaconda 官网下载安装即可。
anaconda 安装成功后,会自带安装 Jupyter,jupyter 主要用于我们代码的编写和运行。
创建一个新文件夹 stock-market-analysis
,进入当前目录,启动 jupyter 。
# 启动 jupyter
conda notebook
复制代码
启动成功,在浏览器中打开 http://localhost:8888/tree)
,单击 new
,创建一个新的 notebook 就可以开始愉快的玩耍了!
numpy
numpy 是一个用于科学计算的 Python 库。
基本用法
# 引入 numpy
import numpy as np
复制代码
# 创建一个长度为15,3乘5的二维数组
a = np.arange(15).reshape(3, 5)
# 打印a
a
复制代码
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14]])
复制代码
# 创建一个长度为15,间隔10,3乘5的二维数组
b = np.arange( 1, 150, 10 ).reshape(3, 5)
# 打印b
b
复制代码
array([[ 1, 11, 21, 31, 41],
[ 51, 61, 71, 81, 91],
[101, 111, 121, 131, 141]])
复制代码
# 两个二维数组相加
a + b
复制代码
array([[ 1, 12, 23, 34, 45],
[ 56, 67, 78, 89, 10