数据挖掘是从大量的不完全的 有噪声的 模糊的 随机的数据中提取隐含在其中的人们事先不知道但又潜在有用的信息和的过程 是一种传统的数据分析方法与大量数据 复杂算法结合技术
第一 数据源必须是大量的真实的 真实的数据往往还有噪声或缺失 第二发现的是用户感兴趣的知识 第三 发现的知识要可接受 可理解 可运用 能支持 特定的问题发现能够支持决策 可以为企业带来利益 或者为科学研究寻找突破口
数据挖掘的任务可以分为预测型任务和描述型任务 预测性任务就是根据其他属性的值预测特定属性的值 如回归分类 离群点检测等 描述型任务就是寻找概括数据中潜在的联系的模式 如聚类分析 关联分析分析 序列模式挖掘,
分类
一 分类分析
二 聚类分析
三 关联分析
数据完全只是数据挖掘过程中的一部分 完整的挖掘过程还包括以下步骤 定义业务目标 真别数据源收集数据选择数据 数据质量检测 数据转换和结果解释 数据我还觉得方法有如下几个 一 预估模型 包括分类和预估两种类型 按类句句数 三连接计数 四时间序列分析