前言
大三本科生要完成老师布置的期末大作业(信息检索和相关性分析二选一),开始猛学数据分析和Python。从今天开始,将更新关于数据分析的blog,来见证自己的学习之路。
一、需求
ProjectDemand:
1.显示数据相关性(回归、聚类)
2.猜测其符合那种分布
3.给出符合分布下的可信度
4.报告中说明哪些数据有可能对哪些结果有直接因果关系,并且给出因果关系的概率
(如采用辅助包,一般要求为:to install Python and these dependencies,
we recommend that you download Anaconda Python or Enthought Canopy, or preferably use
the package manager if you are under Ubuntu or other linux)
二、要求导入的工具包
ToolsPackage:
numpy,
scipy,
matplotlib
其它辅助包入:
Pandas,
StatsModels,
Seaborn
其他工具:Anaconda
简介:
Anaconda就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。
Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。
功能:
1.快速安装、运行和升级包及其依赖项。
2.在计算机中便捷地创建、保存、加载和切换环境。
三、包简介
1.Numpy
Numpy是python科学计算的基础包:
(1)快速高效的多维数组对象ndarray
(2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数
(3)用于读写硬盘上基于数组的数据集的工具
(4)线性代数运算、傅里叶变换,以及随机数生成
(5)用于将C、C++、Fortran代码集成到python的工具
2.pandas
pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。
它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
3.matplotlib
matplotlib是最流行的用于绘制数据图表的python库
4.Scipy
Scipy是一组专门解决科学计算中各种标准问题域的包的集合。
作业内容:
时间紧迫,任务繁重!