关于数据的相关知识点

数据
	数据类型 
		属性与度量
			什么是属性
			属性类型
			属性的不同类型
				分类的
					标称
					序数
				数值的
					区间
					比率
			用值的个数描述属性
				离散的
				连续的
			非对称属性
		数据集的类型 
			一般特征
				维度
				稀疏性
				分辨率
			三种类型
				记录数据
					事务数据或购物蓝数据
					数据矩阵
					稀疏数据矩阵
				基于图形的数据
					带有对象联系的数据
					具有图形对象的数据
				有序数据
					时序数据
					序列数据
					时间序列数据
					空间数据
			处理非记录数据
	数据质量
		测量和数据收集问题 
			测量误差和数据收集错误
			噪声和伪像
			精度,偏倚和准确率
				精度
				偏倚
				准确率
			离群点
			遗漏值
				处理法
					删除数据对象或属性
					估计遗漏值
					在分析时忽略遗漏值
			不一致的值
			重复数据
		关于应用的问题
			时效性
			相关性
	数据预处理
		聚集
		抽样
			抽样方法
				无放回抽样
				有放回抽样
				分层抽样
			渐进抽样
		维归约
			维灾难
			维归约的线性代数技术
				主成分分析  PCA
				奇异值分解  SVD
		特征子集选择
			嵌入
			过滤
			包装
		特征创建
			特征提取
			映射数据到新的空间
				傅立叶变换
				小波变换
			特征构造
		离散化和二元化
			二元化
			连续属性离散化
				非监督离散化
					等频率
					等宽
					K均值
				监督离散化
					熵,基尼不纯度
			具有过多值的分类属性
		变量变换
			简单函数
				在统计学中,变量变换( 特别是平方要,对数和倒数变换)常用来将不具有高斯(正态)分布的数据变换成具有高斯(正态)分布的数据。 
			规范化或标准化
	相似性和相异性的度量
		基础
			定义
			变换
		简单属性之间的相似度和相异度
			
				
		数据对象之间的相异度
			距离
				欧几里得距离
					使用闵可夫斯基距离来推广
		数据对象之间的相似度
			三角不等式通常不成立,但是对称性和非负性通常成立。 
		邻近性度量的例子
			二元数据的相似性度量
				简单匹配系数  SMC
				Jaccard匹配系数 
			余弦相似度
			广义Jaccard系数
			相关性
		邻近度计算的问题
			距离度量的标准化和相关性
			组合异种属性的相似度
			权值
		选取正确的邻近性度量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhangyingchengqi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值