数据挖掘任务分为两大类:
1、预测任务
根据其他属性的值,预测特定属性的值。
有两类预测建模任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。
2、描述任务
概况数据中潜在联系的模式,如相关、趋势、聚类、轨迹和异常等。
描述性数据挖掘任务通常是探查性的,常常需要后处理技术验证和解释结果。
数据集可以看做是数据对象的集合。
数据对象也叫记录、点、向量、模式、事件、案例、样本、观测或实体。
数据对象用一组刻画对象基本特性的属性描述。属性也叫变量、特性、字段、特征或维。
属性类型 | 描述 | 例子 | 操作 | |
---|---|---|---|---|
分类的(定性) | 标称 | 标称属性的值仅仅是不同的名字,即标称值只提供足够的信息以区分对象(=, |