![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
XIAOTWOB
在世界面前,堂堂正正的站立;
永远永远不再畏惧,即使在寒冷的街头
展开
-
认识数据
摘自数据挖掘-概念与技术中心趋势度量:均值、中位数和众数截尾均值:丢弃高低极端值后的均值。对于非对称数据,数据中心的更好度量是中位数众数是另一种中心趋势度量。众数是数据集中出现最频繁的值。中列数是最大值与最小值的平均值。评估数据发散程度:极差、四分位数、方差、标准差和四分位数极差极差是最大值与最小值之差;四分位数是指将数据分成均匀四份。四分位数极差(IQR)是Q3-Q1;对倾斜(...原创 2019-09-13 23:12:04 · 406 阅读 · 0 评论 -
数据预处理
摘自数据挖掘-概念与技术数据预处理数据质量:准确性、完整性、一致性、时效性、可信性和可解释性质量基于数据的应用目的评估。方法数据清理:试图填补缺失值,光滑噪声同时识别离群点,并纠正数据的不一致性。通常是一个两步的迭代过程,包括偏差检测和数据变换。如何处理缺失值1.使用一个全局常量来填充缺失值:简单但不是十分可靠2. 使用他属性的中心度量(如均值或中位数)填充缺失值:对于对称的数据...原创 2019-09-14 23:47:30 · 408 阅读 · 0 评论 -
数据仓库与联机分析处理
数据仓库与联机分析处理数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。有一些要素区别数据仓库与操作数据库。由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。面向主题的(subject-oriented):数据仓库围绕一些重要的主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常...原创 2019-09-16 23:17:50 · 1172 阅读 · 0 评论