自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 5.数据挖掘建模

1 分类与预测2 聚类分析3 关联规则4 时序模式5 离群点检测

2022-01-14 11:03:58 904

原创 4.数据预处理

1 数据清洗1.1 缺失值处理1.2 异常值处理2 数据集成2.1 实体识别2.2 冗余属性识别2.3 数据变换2.4 简单函数变换2.5 规范化2.6 连续属性离散化2.7 属性构造2.8 小波变换3 数据规约3.1 属性规约3.2 数值规约4 Python主要数据预处理函数...

2022-01-14 11:02:48 202

原创 3.数据探索

1 数据质量分析1.1 缺失值分析1.2 异常值分析1.3一致性分析2 数据特征分析2.1 分布分析2.2 对比分析2.3 统计量分析2.4 周期性分析2.5 贡献度分析2.6 相关性分析3 Python主要数据探索函数3.1 基本统计特征函数3.2 拓展统计特征函数3.3 统计绘图函数...

2022-01-14 10:59:13 222

原创 2.Python数据分析工具

1.numpy2.scipy3.matplotlib4.pandas5.statsmodel6.scikit-learn7.keras8.gensim

2022-01-14 10:56:05 165

原创 1.数据挖掘基础

文章目录1.数据挖掘基础1.1 数据挖掘基本任务1.2 数据挖掘建模任务1.3 数据挖掘常用工具1.数据挖掘基础1.1 数据挖掘基本任务1.2 数据挖掘建模任务1.3 数据挖掘常用工具

2022-01-14 10:54:15 269

原创 机器学习名词解释

1.损失函数:用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。2.期望风险:模型定义:1.损失函数:用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。2.期望风险:模型 F(x) 关于联合分布 P(X,Y) 的平均意义下的代价损失,称为风险函数(risk function)或期望损失(expec

2022-01-12 14:08:30 643

原创 机器学习常见问题

1.决策树过拟合过拟合的原因:在于学习时过多的考虑如何提高对训练数据的正确分类,从而构建出过于复杂的决策树。解决过拟合方法:    1.增加训练数据:这是解决过拟合现象的根本办法,若没有过多的训练数据,我们可以自己增加一些假数据来在增加数据的数量,从而让模型的泛化能力增强。    2.控制模型的复杂度:过于复杂的模型容易造成过拟合现象。对于模型的设计而言,我们应该选择简单、合适的模型解决复杂的问题。    3.降低特征的数量:对于一些特征工程而言,可以降低特征的数量。删除冗余特征,人工选择保留哪些

2022-01-12 10:16:20 1578

原创 10.flink

flink

2022-01-10 09:39:50 642

原创 9.spark

spark

2022-01-07 09:52:02 358

原创 8. scala

scala

2022-01-07 09:50:57 241

原创 7. kafka

kafka

2022-01-07 09:50:05 41

原创 6. hbase

hbase

2022-01-07 09:49:13 518

原创 5.sqoop

sqoop

2022-01-07 09:48:21 528

原创 4. flume

flume

2022-01-07 09:47:20 151

原创 3.hive

hive

2022-01-07 09:46:44 193

原创 2.Zookeepr

Zookeepr

2022-01-07 09:45:56 166

原创 1.hadoop

hadoop

2022-01-07 09:43:33 176

原创 10.PageRank

PageRank

2022-01-07 09:42:31 317

原创 9.关联规则Apriori算法

Apriori

2022-01-06 17:08:46 289

原创 8.最大期望算法(EM)

EM

2022-01-06 17:08:13 303

原创 7.K-Means聚类算法

K-Means

2022-01-06 17:06:02 45

原创 6.集成学习Adaboost算法

Adaboost

2022-01-06 17:03:50 129

原创 5. K-近邻算法(KNN)

KNN

2022-01-06 17:00:35 126

原创 4.支持向量机(SVM)

SVM

2022-01-06 17:00:05 291

原创 3.朴素贝叶斯算法( Naive Bayes)

Naive Bayes

2022-01-06 16:59:26 655

原创 2.CART: 分类与回归树

CART: 分类与回归树

2022-01-06 16:58:46 1049

原创 1.决策树C4.5算法

一、概述    C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。    C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而

2022-01-06 12:04:31 11385 2

原创 (4)Python之Matplotlib的使用

1

2020-06-20 21:45:58 266

原创 (3)Python之Scipy库的使用

1

2020-06-20 21:45:27 1068

原创 (2)Python之Pandas库的使用

1

2020-06-19 20:43:39 280

原创 (1)Python之Numpy库的使用

1

2020-06-19 17:56:24 1784

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除