- 博客(31)
- 收藏
- 关注
原创 4.数据预处理
1 数据清洗1.1 缺失值处理1.2 异常值处理2 数据集成2.1 实体识别2.2 冗余属性识别2.3 数据变换2.4 简单函数变换2.5 规范化2.6 连续属性离散化2.7 属性构造2.8 小波变换3 数据规约3.1 属性规约3.2 数值规约4 Python主要数据预处理函数...
2022-01-14 11:02:48 211
原创 3.数据探索
1 数据质量分析1.1 缺失值分析1.2 异常值分析1.3一致性分析2 数据特征分析2.1 分布分析2.2 对比分析2.3 统计量分析2.4 周期性分析2.5 贡献度分析2.6 相关性分析3 Python主要数据探索函数3.1 基本统计特征函数3.2 拓展统计特征函数3.3 统计绘图函数...
2022-01-14 10:59:13 250
原创 2.Python数据分析工具
1.numpy2.scipy3.matplotlib4.pandas5.statsmodel6.scikit-learn7.keras8.gensim
2022-01-14 10:56:05 192
原创 1.数据挖掘基础
文章目录1.数据挖掘基础1.1 数据挖掘基本任务1.2 数据挖掘建模任务1.3 数据挖掘常用工具1.数据挖掘基础1.1 数据挖掘基本任务1.2 数据挖掘建模任务1.3 数据挖掘常用工具
2022-01-14 10:54:15 275
原创 机器学习名词解释
1.损失函数:用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。2.期望风险:模型定义:1.损失函数:用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。2.期望风险:模型 F(x) 关于联合分布 P(X,Y) 的平均意义下的代价损失,称为风险函数(risk function)或期望损失(expec
2022-01-12 14:08:30 672
原创 机器学习常见问题
1.决策树过拟合过拟合的原因:在于学习时过多的考虑如何提高对训练数据的正确分类,从而构建出过于复杂的决策树。解决过拟合方法: 1.增加训练数据:这是解决过拟合现象的根本办法,若没有过多的训练数据,我们可以自己增加一些假数据来在增加数据的数量,从而让模型的泛化能力增强。 2.控制模型的复杂度:过于复杂的模型容易造成过拟合现象。对于模型的设计而言,我们应该选择简单、合适的模型解决复杂的问题。 3.降低特征的数量:对于一些特征工程而言,可以降低特征的数量。删除冗余特征,人工选择保留哪些
2022-01-12 10:16:20 1809
原创 1.决策树C4.5算法
一、概述 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而
2022-01-06 12:04:31 11590 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人