![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python数据分析
以期末大作业为出发点的数据分析学习
si_en_hao
Write the code.Change the world.
展开
-
Python实现数据分析(八)数据清洗(DataClean)
前言“压根儿就没有干净的数据集。” —— 乔希·沙利文《纽约时报》将数据清洗称为“看门人工作”,并称数据科学家百分之八十的时间都花费在了这些清洗任务上。1、数据科学过程(1)问题陈述。 识别出你要解决的问题是什么(2)接下来要做的是数据收集与存储。 数据从何而来?它们在哪里存放?格式又是什么?(3)然后是数据清洗。 数据需要修改吗?有什么需要删除的吗?数据应该怎么调整才能适用于接下来的分析和挖掘?(4)数据分析和机器学习。 数据需要哪些处理?需要什么样的转换?适用什么样的算法?原创 2020-12-09 20:58:04 · 3396 阅读 · 5 评论 -
Python实现数据分析(七)统计学基础
统计学基础1.统计学的研究方法:大量观察法统计分组法综合指标法模型推断法2.完整的统计工作过程:统计调查统计整理统计分析一、统计总体:总体,在同一性质基础上结合起来的许多个别事物的整体总体单位:构成统计总体的个别单位总体容量:一个统计总体所包含的总体单位数。分为无限总体和有限总体。二、1、单位标志:简称标志,用来说明总体单位特征或属性的名称2、品质标志:表示个体属性方面的特征,其具体表现用文字表示。(如:职业,标志表现为工人、教师等)。不可以汇总。3、数量标志原创 2020-12-04 21:34:52 · 584 阅读 · 1 评论 -
Python实现数据分析(六)数据字典的建立
数据字典分析数据首先要搞清楚数据字段的含义。博主费劲千辛万苦,终于在FAA上找到了各种字段的解释数据来源:ACAIS(航空公司活动信息系统-FFA(美国联邦航空管理局))https://www.faa.gov/airports/planning_capacity/passenger_allcargo_stats/passenger/previous_years/选用表:cy18-all-enplanements.xlsx字段解释Rank按旅客人数的排名(降序)RO美原创 2020-11-30 23:46:06 · 2206 阅读 · 9 评论 -
Python实现数据分析(五)Scipy
Scipy关键词: 数值计算库官网:https://www.scipy.org/介绍:(选自-博主Are you ready)文章链接:https://blog.csdn.net/pythoncsdn111/article/details/98395661Scipy依赖于NumpyScipy包含的功能:最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等应用场景:Scipy是高端科学计算工具包,用于数学、科学、工程学等领域1、Integra原创 2020-11-24 01:08:31 · 380 阅读 · 0 评论 -
Python实现数据分析(四) Pandas
Pandas关键词: 数据分析库官网:https://pandas.pydata.org/介绍(选自-百度百科):pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。1、Series and DataFrame(数据结构)s = pd.Seri原创 2020-11-24 00:58:36 · 386 阅读 · 2 评论 -
Python实现数据分析(三)NumPy
NumPy一、numpy关键词:开源 数据计算扩展功能:ndarray 多维操作 线性代数官网:https://numpy.org/介绍(选自-百度百科):NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。代码(操作原创 2020-11-24 00:51:23 · 497 阅读 · 0 评论 -
Python实现数据分析(二)Matplotlib的概念和简单应用
Matplotlib的概念和简单应用一、Matplotlib的概念Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。它也可以和图形工具包一起使用,如 PyQt 和 wxPython。Matplotlib的特点:1.是专门用于开发2D图标(包括3D图表)2.使用起来极其简单3.以渐进、交互方式实现数据可视化matplotlib架构:上层调用下层后端:实现绘图区域(分配画图资源)美工:fi原创 2020-11-21 00:17:15 · 2171 阅读 · 16 评论 -
Python实现数据分析(一)从零开始的数据分析
前言大三本科生要完成老师布置的期末大作业(信息检索和相关性分析二选一),开始猛学数据分析和Python。从今天开始,将更新关于数据分析的blog,来见证自己的学习之路。一、需求ProjectDemand:1.显示数据相关性(回归、聚类)2.猜测其符合那种分布3.给出符合分布下的可信度4.报告中说明哪些数据有可能对哪些结果有直接因果关系,并且给出因果关系的概率(如采用辅助包,一般要求为:to install Python and these dependencies,we recommend原创 2020-11-20 23:27:58 · 1329 阅读 · 2 评论