![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘导论基础知识
文章平均质量分 75
进阶中的程序猿
这个作者很懒,什么都没留下…
展开
-
数据挖掘导论学习笔记(一)
第一章 绪论数据挖掘:在大型数据存储库中,自动的发现有用信息的过程。数据库中知识发现过程(KDD):输入数据—>数据预处理---->数据挖掘---->后处理---->信息数据预处理:特征选择,维规约,规范集,选择数据子集后处理:模式过滤,可视化,模式表示数据挖掘任务分为两大类:(1)预测任务:根据其他属性的值,预测特定属性的值被预测的属性一般叫做目标变量或因...原创 2018-11-12 11:21:29 · 2656 阅读 · 0 评论 -
数据挖掘导论学习笔记(三)
第四章 分类:基本概念,决策树与评估模型预备知识:(1)概括分类任务的输入数据是集合。每条记录也称为实例或样例,用元组(x,y)表示,其中x是属性的集合,而y是一个特殊属性,指出样例的类标号(也称为分类属性或目标属性)分类与回归的区别:分类的类标号必须是离散属性,回归是一种预测建模任务,目标属性一定是连续属性。(2)分类定义:通过学习得到一个目标函数f,把每个属性集x映射到一个预先定...原创 2018-11-14 15:43:37 · 1040 阅读 · 0 评论 -
数据挖掘导论学习笔记(二)
第三章 探索数据汇总统计:量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。频率:具有属性值vi的对象数/总数分类属性的众数就是具有最高频率的值。百分位数:给定一个有序的或连续的属性x和0到100之间的数p,第p个百分位数xp是一个x值,似的x的p%的观测值小于xp。值集位置的度量:(1)均值:平均值,对于离群值比较敏感(2)中位数截断均值:指0到100之...原创 2018-11-12 17:43:09 · 663 阅读 · 0 评论 -
数据挖掘导论学习笔记(四)
第五章 分类:其他技术基于规则的分类器:每一个分类规则可以表示为如下形式:ri: (条件i) ----> yi规则: (条件i)规则前件或前提:规则左边规则后件:规则右边,包含预测类yi分类规则的质量衡量 :给定数据集D和分类规则 r:A---->y(1)覆盖率:D中触发规则r的记录所占比例(2)准群率或置信因子:触发r的记录中类标号等于y的记录所占比例。...原创 2018-11-14 19:04:00 · 1124 阅读 · 0 评论 -
数据挖掘基础导论学习笔记(五)
第五章 分类 其他分类贝叶斯分类器贝叶斯定理:把类的先验知识和从数据中收集的新证据相结合的统计原理。公式:P(Y|X)=P(X|Y)*P(Y)/P(X)X是属性集,Y是类变量把X和Y看成随机变量,用P(Y|X)以概率的方式捕捉二者之间的关系,这个条件概率又称为Y的后验概率P(Y)称为Y的先验概率朴素贝叶斯分类器:1 条件独立性2 朴素贝叶斯分类器如何工作3 估计分类属性的条件...原创 2018-11-16 10:16:36 · 585 阅读 · 0 评论