![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据分析与数据挖掘
文章平均质量分 84
主要记录学习大数据分析心路历程
Sunshine--
裂缝中的阳光
展开
-
数据分类分析
分类分析一、决策树算法首先,顾名思义,决策树是基于树结构来进行决策的。树可以表达类和属性的关系。1.决策树的基本组成部分:决策结点、分支和叶子。2.如何选择叶子结点——选择最佳划分(属性)的度量选择最佳划分的度量通常是根据划分后子结点不纯性的度量。不纯的程度越低,类分布就越倾斜。3.采用熵来说明划分后子结点不纯性的度量,如下:Entropy(t)=−∑i=0c−1(p(i∣t)log2p(i∣t))Entropy(t)=-\sum_{i=0}^{c-1}(p(i|t)log_{2}p(i|t)原创 2021-03-18 15:57:48 · 1043 阅读 · 0 评论 -
Chapters2 数据关联分析——Apriori算法及FP-Growth算法
Chapters2 数据关联分析一、数据关联分析基本概念1.频繁项集和关联规则I=I1,I2,...,ImI={I_{1},I_{2},...,I_{m}}I=I1,I2,...,Im:项的集合。DDD:交易数据库——注意它是子集族。TTT:每次交易事务,是III的非空子集,即T⊆IT\subseteq IT⊆I,且每个TTT都与一个唯一的标识符TIDTIDTID对应。2.一些定义(1)项集:是指项的集合。包含kkk个项的项集称为kkk项集。例如集合{1,2}\{1,2\}{1,2} 就原创 2021-03-15 15:53:47 · 697 阅读 · 0 评论 -
Chapters 1 大数据挖掘及应用概论
Chapters 1 大数据挖掘及应用概论1.1大数据智能分析处理的普及和应用什么是云计算? 基于互联网的相关服务的增加、使用和交付模式,通常设计通过互联网来提供动态易扩展且经常是虚拟化的资源。什么是大数据? 从资源视角看,大数据是新资源,体现了一种全新的资源观。 从技术视角看,大数据代表了新一代数据管理与分析技术,在超大规模数据集(PB量级)上进行分析、以分原创 2021-03-09 09:46:50 · 350 阅读 · 3 评论