数据挖掘考前必背简答题

本文介绍了数据挖掘的基础知识,包括定义、功能、预处理的重要性。数据挖掘的功能涉及概念描述、关联分析等。在数据预处理阶段,缺失值处理方法如均值填充、众数填充等被提及。此外,还讨论了主成分分析、关联规则、K-means和DBSCAN算法,以及决策树和boosting算法的基本原理。
摘要由CSDN通过智能技术生成

1.什么是数据挖掘?数据挖掘的功能有哪些?
从广义技术角度来看,数据挖掘是指从大量的、不完全的、有噪音的、模糊的、随机的实际应用数据中提取出隐含在其中、
人们事先不知道而又是潜在有用的信息或知识的非凡过程。从狭义技术角度来看,也有人把数据挖掘视为知识发现过程的
一个基本步骤。
功能:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析
2.在数据挖掘之前为什么要对原始数据进行预处理?
原始业务数据来自多个数据库或数据仓库,其结构和规则可能是不同的,这将导致原始数据非常杂乱、不可用,即使在同一数据库中
,也可能存在重复和不完整的数据信息,为使这些数据能符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据预处理。
数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法计算量,提高挖掘效率和准确程度。
3.缺失值的处理有哪些方法?列出至少6种。
1. 均值填充:对于数值型的特征,采用该特征在已有数据中的平均值或中位数来填充缺失值。
2. 众数填充:对于类别型的特征,采用该特征在已有数据中出现频率最高的类别来填充缺失值。
3. 插值法:通过已有的数据,推算出缺失值,常用的插值方法包括线性插值、多项式插值、样条插值等。
4. 预测模型填充:采用其他特征的信息,通过建立模型来预测缺失值,常用的模型包括KNN、决策树、随机森林等。
5. 删除法:对于缺失值比例较小的数据,可以考虑删除缺失值较多的行或列。
6. 中位数:若数据呈偏态分布。
4.什么是主成分分析?
主成分分析(PCA)是一种比较基础的数据降维方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值