gnaHuhSiL-CSDN博客

原创 5.数据挖掘建模

1 分类与预测2 聚类分析3 关联规则4 时序模式5 离群点检测

2022-01-14 11:03:58 924

原创 4.数据预处理

1 数据清洗1.1 缺失值处理1.2 异常值处理2 数据集成2.1 实体识别2.2 冗余属性识别2.3 数据变换2.4 简单函数变换2.5 规范化2.6 连续属性离散化2.7 属性构造2.8 小波变换3 数据规约3.1 属性规约3.2 数值规约4 Python主要数据预处理函数...

2022-01-14 11:02:48 211

原创 3.数据探索

1 数据质量分析1.1 缺失值分析1.2 异常值分析1.3一致性分析2 数据特征分析2.1 分布分析2.2 对比分析2.3 统计量分析2.4 周期性分析2.5 贡献度分析2.6 相关性分析3 Python主要数据探索函数3.1 基本统计特征函数3.2 拓展统计特征函数3.3 统计绘图函数...

2022-01-14 10:59:13 250

原创 2.Python数据分析工具

1.numpy2.scipy3.matplotlib4.pandas5.statsmodel6.scikit-learn7.keras8.gensim

2022-01-14 10:56:05 192

原创 1.数据挖掘基础

文章目录1.数据挖掘基础1.1 数据挖掘基本任务1.2 数据挖掘建模任务1.3 数据挖掘常用工具1.数据挖掘基础1.1 数据挖掘基本任务1.2 数据挖掘建模任务1.3 数据挖掘常用工具

2022-01-14 10:54:15 275

1.损失函数：用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。2.期望风险：模型定义：1.损失函数：用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。2.期望风险：模型 F(x) 关于联合分布 P(X,Y) 的平均意义下的代价损失，称为风险函数（risk function）或期望损失（expec

2022-01-12 14:08:30 672

原创机器学习常见问题

1.决策树过拟合过拟合的原因：在于学习时过多的考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决过拟合方法： 1.增加训练数据：这是解决过拟合现象的根本办法，若没有过多的训练数据，我们可以自己增加一些假数据来在增加数据的数量，从而让模型的泛化能力增强。 2.控制模型的复杂度：过于复杂的模型容易造成过拟合现象。对于模型的设计而言，我们应该选择简单、合适的模型解决复杂的问题。 3.降低特征的数量：对于一些特征工程而言，可以降低特征的数量。删除冗余特征，人工选择保留哪些

2022-01-12 10:16:20 1809

原创 10.flink

flink

2022-01-10 09:39:50 649

原创 9.spark

spark

2022-01-07 09:52:02 363

原创 8. scala

scala

2022-01-07 09:50:57 246

原创 7. kafka

kafka

2022-01-07 09:50:05 47

原创 6. hbase

hbase

2022-01-07 09:49:13 522

原创 5.sqoop

sqoop

2022-01-07 09:48:21 531

原创 4. flume

flume

2022-01-07 09:47:20 157

原创 3.hive

hive

2022-01-07 09:46:44 197

原创 2.Zookeepr

Zookeepr

2022-01-07 09:45:56 172

原创 1.hadoop

hadoop

2022-01-07 09:43:33 182

原创 10.PageRank

PageRank

2022-01-07 09:42:31 326

原创 9.关联规则Apriori算法

Apriori

2022-01-06 17:08:46 297

原创 8.最大期望算法（EM）

EM

2022-01-06 17:08:13 322

原创 7.K-Means聚类算法

K-Means

2022-01-06 17:06:02 54

原创 6.集成学习Adaboost算法

Adaboost

2022-01-06 17:03:50 134

原创 5. K-近邻算法（KNN）

KNN

2022-01-06 17:00:35 130

原创 4.支持向量机（SVM）

SVM

2022-01-06 17:00:05 298

原创 3.朴素贝叶斯算法（ Naive Bayes）

Naive Bayes

2022-01-06 16:59:26 662

原创 2.CART: 分类与回归树

CART: 分类与回归树

2022-01-06 16:58:46 1056

原创 1.决策树C4.5算法

一、概述 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构，其中每个内部节点（非树叶节点）表示在一个属性上的测试，每个分枝代表一个测试输出，而

2022-01-06 12:04:31 11590 2

原创（4）Python之Matplotlib的使用

1

2020-06-20 21:45:58 274

原创（3）Python之Scipy库的使用

1

2020-06-20 21:45:27 1083

原创（2）Python之Pandas库的使用

1

2020-06-19 20:43:39 291

原创（1）Python之Numpy库的使用

1

2020-06-19 17:56:24 1917

zstu_lihang的博客