数据挖掘
XIAOTWOB
在世界面前,堂堂正正的站立;
永远永远不再畏惧,即使在寒冷的街头
展开
-
认识数据
摘自数据挖掘-概念与技术 中心趋势度量:均值、中位数和众数 截尾均值:丢弃高低极端值后的均值。 对于非对称数据,数据中心的更好度量是中位数 众数是另一种中心趋势度量。众数是数据集中出现最频繁的值。 中列数是最大值与最小值的平均值。 评估数据发散程度:极差、四分位数、方差、标准差和四分位数极差 极差是最大值与最小值之差; 四分位数是指将数据分成均匀四份。四分位数极差(IQR)是Q3-Q1; 对倾斜(...原创 2019-09-13 23:12:04 · 431 阅读 · 0 评论 -
数据预处理
摘自数据挖掘-概念与技术 数据预处理 数据质量:准确性、完整性、一致性、时效性、可信性和可解释性 质量基于数据的应用目的评估。 方法 数据清理: 试图填补缺失值,光滑噪声同时识别离群点,并纠正数据的不一致性。通常是一个两步的迭代过程,包括偏差检测和数据变换。 如何处理缺失值 1.使用一个全局常量来填充缺失值:简单但不是十分可靠 2. 使用他属性的中心度量(如均值或中位数)填充缺失值:对于对称的数据...原创 2019-09-14 23:47:30 · 425 阅读 · 0 评论 -
数据仓库与联机分析处理
数据仓库与联机分析处理 数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。有一些要素区别数据仓库与操作数据库。由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。 面向主题的(subject-oriented):数据仓库围绕一些重要的主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常...原创 2019-09-16 23:17:50 · 1201 阅读 · 0 评论