Python数据分析与可视化
文章平均质量分 50
爱学习的小仙女!
这个作者很懒,什么都没留下…
展开
-
Python数据分析与可视化笔记 十 关联
定义:设 W 中有 e% 的事务支持物品集 B , e% 称为关联规则 A-> B 的期望可信度,即 P(B)。定义:设 W 中支持物品集 A 的事务中,有 c% 的事务同时也支持物品集 B ,c% 为关联规则 A -> B 的置信度,即条件概率P(Y|X)。定义:设 W 中有 s% 的事务同时支持物品集 A 和物品集 B ,s%称为关联规则 A -> B 的支持度。的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也会出现,即隐藏在数据间的关联或相互联系。关联规则的学习属于无监督学习过程。原创 2024-04-05 13:45:05 · 258 阅读 · 0 评论 -
Python数据分析与可视化笔记 八 Pandas 处理结构化数据 Series
对于通过 Series 的 dict 创建 DataFrame 的情况,若指定 index ,则会丢弃未与指定 index 相匹配的数据。Series 对象输出时,每一行为 Series 中的一个元素,左侧为索引,右侧为值。Series 类似于一维数组与字典的结合,是一个有标签的一维数组,标签在 Pandas 中有对应的数据类型 index。对 ndarray 可以进行的操作对 Series 可以同样进行,但由于索引的存在,在操作时存在数组对齐的问题。(1)索引对象:包括简单的索引和多层次的索引。原创 2024-04-01 16:03:16 · 449 阅读 · 0 评论 -
Python数据分析与可视化笔记 七 Numpy ndarray
通过索引获得 ndarray 的一个切片,与 list 不同的是,获得的切片是原始 ndarray 的视图,所以对切片的修改及时对原始 ndarray 的修改。对于一些用于标量的算术运算,Numpy 可以通过广播的方式将其作用到 ndarray 的每个元素上,返回一个或多个新的矢量。例如,对一个 ndarray 对象进行加一个标量的运算,会对 ndarray 对象的每一个元素进行与标量相加的操作,得到一个新的 ndarray 并返回。另外,这本书小错误挺多的,有的地方也不是很通顺。原创 2024-04-01 10:40:42 · 472 阅读 · 0 评论 -
Python数据分析与可视化笔记 六 特征构建 特征提取 主成分分析 独立成分分析 线性判别分析
特征提取是在原始特征的基础上,自动构建新的特征,将原始数据转换为一组更具物理意义、统计意义或者核的特征。LDA 的原理是将带上标签的数据(点)通过投影的方法,投影到维度更低的空间,使得投影后的点会形成按类别区分,相同类别的点将会在投影后更接近。在数学上,是先用原始数据协方差矩阵的前 N 个最大特征值对应的特征向量构成映射矩阵,然后原始矩阵左乘映射矩阵,从而对原始数据降维。特征构建是指从原始特征中人工构建新的特征。ICA 认为观测到的数据矩阵 X 是可以由未知的独立元矩阵 S 与未知的矩阵 A 相乘得到的。原创 2024-04-01 09:46:55 · 428 阅读 · 0 评论 -
Python数据分析与可视化笔记 五 数据清洗 特征工程 特征选择方法
数据清洗的主要目的是对缺失值、噪声数据、不一致数据、异常数据进行处理和对上述数据质量问题分析时发现的问题进行处理,使得清洁后的数据格式符合标准、不存在异常数据等。先使用某些机器学习的算法和模型进行训练,得到各特征的权重系数,根据系数从大到小选择特征,类似过滤法,不同的是通过训练来确定特征的优劣。如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本没有差异,那么这个特征对样本的区分并没有什么用。特征中可能存在一些冗余特征,即两个特征本质上相同,也可以表示为两个特征的相关性比较高。原创 2024-03-31 20:51:56 · 285 阅读 · 0 评论 -
Python数据分析与可视化笔记 四 数据质量 评估标准 完整性、一致性、准确性、及时性
数据质量的一致性主要体现在数据记录是否符合规范和数据是否符合逻辑。如果数据记录格式有标准的编码规则,那么对数据记录的一致性检验就比较简单,只要验证所有的记录是否满足这个编码规则就可以了。和一致性不一样,导致一致性问题的原因可能是数据记录规则不同,但不一定是错误的,而存在准确性问题的数据不仅仅只是原则上的不一致,准确性关注数据中的错误,最为常见的准确性错误如乱码。及时性对数据分析本身来说要求并不高,但如果数据分析周期加上数据建立的实践过长,就可能导致分析得出的结论失去了借鉴意义。原创 2024-03-23 09:23:35 · 371 阅读 · 0 评论 -
Python数据分析与可视化笔记 三 了解数据 数据分类 集中趋势 离散程度 相关性测量 数据缺失 噪声 离群点
对于定量数据,极差代表数据所处范围的大小,方差、平均差和标准差代表数据相对均值的偏离情况,但方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响。定序变量是指该变量只是对某些特性的“多少”进行排序,但各等级之间的差别不确定。数据集中的一些数据对象,与数据的一般行为或模型不一致,这样的对象称离群点。进行真正的数据分析之前,可以通过以下这些简单的统计方法计算变量之间的相关性。数据集中不含缺失变量的称完全变量,含缺失值的变量称不完全变量。离散变量是通过计数方式取得的,连续变量是一直叠加上去的。原创 2024-03-19 10:19:26 · 639 阅读 · 0 评论 -
Python数据分析与可视化笔记 二 机器学习与数据分析的关系 数据分析的基本步骤 Python和数据分析
但现有状况是,传感器、照相机等电子设备的普及导致大量的数据涌入,无法像传统的数据收集那样得到少而精的数据,而是。数据分析的定义则是:识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,以前的数据收集会有以下一些步骤:抽样、测量、编码、输入、核对。由于经验在计算机系统中主要以数据形式存在,因此机器学习需要对数据进行分析。从这样的数据中得到所需要的信息的过程是目前数据分析的难点和重点。数据分析与知识发现是将预处理后的数据进行进一步的分析,完成。包括:首先对数据进行。,得到数据的基本档案;原创 2024-03-18 10:38:30 · 656 阅读 · 0 评论 -
Python数据分析与可视化笔记一 机器学习概述
在于:数据的分布必然不是完全随机的,通过一些有标识数据的局部特征,以及更多没有标识数据的整体分布,就可以得到可以接受甚至是非常好的结果。是一种从数据当中发现复杂规律,并且利用规律对未来时刻、未知状况进行预测和判定的方法,是当下被认为最有可能实现人工智能的方法之一。,不断地调整预测模型,直到模型的预测结果达到一个预期的准确率。,部分没有被标识,且未被标识的数据的数量常常远大于有标识数据的数量。,计算机自行学习分析数据内部的规律、特征等,进而得出一定的结果。学习到的模型适用于新样本的能力,称。原创 2024-03-17 20:28:57 · 468 阅读 · 1 评论