数据挖掘
文章平均质量分 92
数据挖掘
码银
CSDN校园主理人、阿里云专家博主、Python领域新星创作者、OceanBase 数据库V2数据库认证专员、新星计划潜力新星、51CTO2023年度最佳博文奖,支付宝开发者社区优秀博主。欢迎交流学习!
展开
-
数据挖掘(7.1)--数据仓库
数据库因数据处理的需要而产生。例如,在20世纪60年代后期,美国为了战争的需要,将各种情报收集在一起,存储隐藏在计算机内,这就是数据库的起源。随着计算机技术的发展,数据库从文件系统阶段发展为数据库阶段,再到高级数据库阶段。现在,数据库已经广泛应用于实际应用、计算机技术和网络技术中,如分布式数据库、面向对象数据库和网络数据库等。数据:数据库中存储的基本对象,用于描述事物的符号记录数据库:以一种结构化的方式存储数据的文件系统数据库由表组成,表由记录组成,记录由字段组成①:域②:记录③:数据。原创 2023-06-12 07:17:26 · 7295 阅读 · 125 评论 -
数据挖掘(6.1)--神经网络
神经网络是一种计算模型,它受到人脑处理信息的生物神经网络过程的启发。人工神经网络(ANN)一般也称为神经网络(Neural Network,NN)。神经网络是由多个神经元组成的,每个神经元都有一个输入和一个输出,它们之间通过权重进行连接。当输入数据经过多个神经元后,输出结果就是由这些神经元的输出加权求和得到的。原创 2023-06-08 09:26:03 · 5068 阅读 · 160 评论 -
数据挖掘(5.1)--贝叶斯分类
贝叶斯分类方法是统计学的分类方法,它利用概率统计知识预测给定元组属于特定类的概率。贝叶斯分类基于贝叶斯定理。最简单的贝叶斯分类算法称为朴素贝叶斯分类法。原创 2023-05-28 09:37:01 · 3758 阅读 · 173 评论 -
〖数据挖掘〗weka3.8.6的安装与使用
Preprocess:预处理Classify:分类Cluster:聚类Associate:关联Select attributes:选择属性Visualize:可视化open file:从文件中打开一组实例open URL:从URL中打开一组实例open DB:从数据库中打开一组实例generate:生成人工数据undo:撤销对数据集最后更改edit:在查看器中打开当前数据集进行编辑save:将工作关系保存到文件中属性ALL:全选None:全不选。原创 2023-05-08 16:04:15 · 4992 阅读 · 83 评论 -
数据挖掘(4.1)--分类和预测
分类:离散型、分类新数据预测:连续型、预测未知值描述属性:连续、离散类别属性:离散有监督学习:分类训练样本有标签对未知数据分类无监督学习:聚类无标签划分存在的聚类。原创 2023-04-17 17:48:49 · 6085 阅读 · 138 评论 -
数据挖掘(3.1)--频繁项集挖掘方法
关联规则挖掘是数据挖掘领域中研究最为广泛的也最为活跃的方法之一关联规则反应了一个事物和其他事物之间的相互依存性和关联性如果存在一定的关联关系,其中一个事物就可以通过其他事物预测到最小支持度:就是说当支持度达到一定的阈值后,某种数据才有被挖掘的潜力这个阈值就是最小支持度计数(min_sup)。频繁项集:当某种数据的支持度超过最小支持计数阈值时就叫做频繁项集。原创 2023-04-05 09:30:17 · 6688 阅读 · 131 评论 -
数据挖掘(2.4)--数据归约和变换
在数据离散化中也可以引入这种思想,对于一个属性的两个相邻的取值区间,“属性值处于哪一个的区间”与“数据属于哪一个类别”这两个变量的独立性可以表明是否应该合并两个区间。主成分分析(PCA)是一种正交线性变换,它将数据通过正交变换到新的坐标系中,其中第一个分量有最大的方差,第二个分量有第二大的方差,依此类推,数据主要的能量集中在前几个分量中。在进行数据离散化的过程中,如果关注点主要在于属性值的离散化能够有助于提高分类的准确性,那么可以使用信息增益来进行数据离散化。这种方法将数值型的数据分成相对规整的自然分区。原创 2023-03-30 09:03:43 · 3905 阅读 · 85 评论 -
数据挖掘(2.3)--数据预处理
三、数据集成和转换1.数据集成2.数据冗余性2.1 皮尔森相关系数2.2卡方检验3.数据转换原创 2023-03-17 22:29:09 · 4375 阅读 · 180 评论 -
数据挖掘(2.2)--数据预处理
描述数据的中心趋势、数据发散、数据清洗原创 2023-03-09 12:49:16 · 4051 阅读 · 74 评论 -
数据挖掘(2.1)--数据预处理
数据是数据对象(Data Objects)及其属性(Attributes)的集合。数据对象(一条记录、一个实体、一个案例、一个样本等)是对一个事物或者物理对象的描述。数据对象的属性则是这个对象的性质或特征,例如一个人的肤色、眼球颜色等是这个人的属性。每一行为一条记录,每条记录即一个数据对象,代表一个用户的资料。而每一行的序号、男/女、收人、是否有配偶为数据对象的属性。而每一条记录的某一列即该对象属性的属性值,如:序号为一的对象“收入”属性的值为“10000”。原创 2023-03-06 18:17:46 · 3695 阅读 · 81 评论 -
数据挖掘(1)--基础知识学习
自20世纪90年代以来,随着数据库技术应用的普及,数据挖掘( Data Mining )技术已经引起了学术界、产业界的极大关注,其主要原因是当前各个单位已经存储了超大规模,即海量规模的数据,未来能够真正发挥这些数据的实际价值。由于数据分析和管理工作的应用需要,需将这些数据转换成有用的信息和知识,即从传统的数据统计向数据挖掘与分析进行转换。另外,通过数据挖掘技术获取的信息和知识还可以广泛应用于各个行业领域,包括市场开拓与分析、商务管理、生产控制、工程设计和科学探索等方面。(摘自《数据挖掘:方法与应用》徐华)原创 2023-02-27 20:06:51 · 5293 阅读 · 33 评论