数据挖掘
文章平均质量分 85
Hatter_l
这个作者很懒,什么都没留下…
展开
-
数据挖掘复习笔记第八章——回归
第八章 回归8.1 回归概述回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。x:自变量 y:因变量 确定y随x的变化情况按因变量的多少:简单回归分析和多重回归分析涉及自变量的多少:一元回归和多元回归分析按自变量和因变量的关系类型:线性回归分析和非线性回归分析8.2 应用案例8.3 线性回归一元线性回归多元线性回归多项式回归m(x)=β0+β1x1+β2x22+⋯+βdxdd=β0+∑k=1原创 2021-11-03 00:11:51 · 306 阅读 · 0 评论 -
数据挖掘复习笔记第七章——聚类
第七章 聚类7.1 聚类分析聚类分析(Cluster analysis),简称聚类(Clustering),是一个把数据对象划分为子集的过程。簇(Cluster):每一个子集是一个簇簇内对象相似,簇间对象相异最小化类内距离,最大化类间距离聚类是一种无监督学习好的聚类分析方法会产生高质量的聚类高类内相似度,低类间相似度聚类方法中主要的因素是距离或相似度聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法(如:特征和分类)的预处理步骤聚类分析的数原创 2021-11-03 00:11:39 · 1400 阅读 · 0 评论 -
数据挖掘复习笔记第六章——分类
第六章 分类6.1 分类、回归与聚类分类和回归是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的模型。分类:预测类对象的分类标号(离散值)回归:建立连续函数值模型6.2 分类的应用案例6.3 分类概念分类过程测试集要独立于训练样本集,否则会出现“过分拟合”(overfitting)的情况6.4 常用的分类方法6.4.1 K-近邻给定一个未知样本,k-最近邻分类法搜索模式空间,找出最接近未知样本的k个训练样本;然后使用k个最临近者中最公共的类来预测当前样本原创 2021-11-03 00:11:30 · 788 阅读 · 0 评论 -
数据挖掘复习笔记第五章——关联规则
第五章 关联规则5.1概述频繁模式是频繁地出现在数据集中的模式。目的:发现数据中蕴含的内在规律。经典的关联规则挖掘算法Apriori算法FP-growth算法5.2 基本概念5.2.1 项目和项集定义:设I={$i_1 ,i_2 , … ,i_m KaTeX parse error: Expected 'EOF', got '}' at position 1: }̲是m个不同项目的集合,每个i_k (k=1,2,\cdots,m)称为一个项目() 称为一个项目()称为一个项原创 2021-11-03 00:11:20 · 772 阅读 · 1 评论 -
数据挖掘复习笔记第四章——数据仓库
第四章 数据仓库4.1 数据仓库4.1.1 数据仓库的定义数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。主要进行分析决策,不太关注数据的操作4.1.2 数据仓库和数据库的关系数据仓库是从历史的角度提供信息,而数据库保存当前数据。数据仓库中的数据时间期限要远远长于操作型数据库中的 数据时间期限。演变过程:关系数据库→\rightarrow→高级数据库→\rightarrow→数据仓库技术和数据挖掘技术数据库的局限性:传统数据库所能做到的只是对已有的数据原创 2021-11-03 00:11:09 · 323 阅读 · 0 评论 -
数据挖掘复习笔记第三章——数据预处理
第三章 数据预处理3.1 数据预处理:概述 数据有可能是有缺失、不一致、有噪声、高维数据质量:保证完整性 一致性 有噪声 准确性 时效性 可信性 可解释性数据预处理的主要工作:抓取/抽取工作:从不同的网络、平台、 数据库、数据格式、 应用中抽取数据。清洗:空缺、噪声数据处理等集成数据:合并、汇总、过滤等降维:将高维数据降低到低维空间中转换:重新格式化和转换质量差→\rightarrow→数据清洗→\rightarrow→质量可控来源多样化→\righta原创 2021-11-03 00:11:00 · 1919 阅读 · 0 评论 -
数据挖掘复习笔记第二章——认识数据
第二章 认识数据2.1 数据对象与属性类型数据集由数据对象组成。一个数据对象代表一个实体。 数据库中行对应数据对象,列对应于属性。数据属性标称属性标称属性的值是事物的标号或者名称。每一个值表示一个类别、编码或者状态。值没有次序。只能进行= ≠运算二元属性只有两个类别或者状态(0或1)二元属性是标称属性的特例对称的二元属性 权重相同非对称的二元属性 状态结果不是同样的重要只能进行= ≠运算序数属性可能的值之间具有有意义的序或秩评定(ranking)原创 2021-11-03 00:09:53 · 751 阅读 · 0 评论 -
数据挖掘复习笔记第一章——概述
第一章 概述1.1 背景数据爆炸性增长数据的收集和数据的可获得性数据挖掘:海量数据的自动分析技术1.2 基本概念1.2.1 数据数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。数据可能存储在数据库、数据仓库和其他信息资料库中。类型连续型:数值离散型:标称 二元符号 字符存在问题:不一致 错误 缺失1.2.2 信息信息是具有时效性的,有一定含义的,有逻辑的、经过加工处理原创 2021-11-02 11:38:05 · 664 阅读 · 0 评论