![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 58
xiao52x
这个作者很懒,什么都没留下…
展开
-
数据挖掘 (4):
文章目录一、KNN二、决策树三、朴素贝叶斯四、支持向量机(SVM)六、人工神经网络七、XGB (实践)一、KNN算法原理:找到K个与新数据最近的样本,取样本中最多的一个类别作为新数据的类别算法的优点 :01简单易实现。2、对于边界不规则的数据效果较好算法的缺点:只适合小数据集、数据不平衡效果不好、必须要做数据标准化、不适合特征维度态度的数据关于K的选取:K值的选取会影响到模型的效果K越小的时候容易过拟合,K越大的时候容易欠拟合二、决策树最终形成的这棵树上,所有的叶子节点都是要输出原创 2022-04-19 11:53:30 · 648 阅读 · 0 评论 -
数据挖掘:(3)一些常用的概念
文章目录一、过拟合与欠拟合二、其他评估指标三、评估数据的处理一、过拟合与欠拟合过拟合:模型在训练集上表现良好,而在测试集或者验证集上表现不佳欠拟合:在训练集和测试集上的表现都不好二、其他评估指标模型速度:主要评估模型在处理数据上的开销和时间鲁棒性:主要考虑在出现错误数据或者异常数据甚至是数据缺失时模型是否可以给出正确的结果,甚至是否可以给出结果,会不会导致模型运算的崩溃。可解释性:在很多场景下(比如金融风控),需要给出一个让人信服的理由三、评估数据的处理随机抽样:把数据分成训练集原创 2022-04-19 11:05:07 · 225 阅读 · 0 评论 -
数据挖掘(2)基本知识
文章目录一、数据处理1.准备数据2.数据探索3.数据清洗(1)缺失值处理(2)异常值处理(3)数据偏差的处理(4)数据标准化(5)特征选择(6)构建训练集和测试集二、数据建模1.分类问题(KNN、决策树、随机森林、SVM等)2.聚类问题3.回归问题一、数据处理1.准备数据原始的数据本身也存在着各种各样的问题如不够准确、格式多样、部分特征缺失、标准不统一、特殊数据、错误数据等需要你掌握一些数据库的使用技巧关系型数据库MySQL、大数据使用的Hbase、HIVE、搜索引擎数据库ES、内存数据库Red原创 2022-04-19 10:58:58 · 2318 阅读 · 0 评论 -
数据挖掘(1):python的一些基础知识
文章目录一、python的基础知识1.列表2.集合3.字典二、常用库1.标准库第三方库(Numpy,Scipy, Pandas、Matplotlib)机器学习深度学习常用镜像源三、python基础语法四、运算符一、python的基础知识1.列表2.集合3.字典二、常用库1.标准库第三方库(Numpy,Scipy, Pandas、Matplotlib)机器学习深度学习常用镜像源三、python基础语法输入转换数据类型的函数原创 2022-04-18 21:11:49 · 1260 阅读 · 0 评论