- 博客(5)
- 收藏
- 关注
原创 机器学习实战决策树
1.1 决策树的构造决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集。这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型,则当前无需阅读的垃圾邮件已经正确地划分数据分
2021-05-29 14:34:25 182
原创 机器学习实战K-近邻算法
k-近邻算法**优点:**精度高、对异常值不敏感、无数据输入假定。**缺点:**计算复杂度高、空间复杂度高。**适用数据范围:**数值型和标称型。工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k
2021-05-24 16:18:11 214
原创 KNN算法
一、KNN算法概述KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习中的聚类算法),但却是有本质区别的。二、KNN特点KNN是一种非参的,惰性的算法模型。非参的意思并不是说这个算法不需要参数,而是意味着这个模型不会对数据做出任何的假设,与之相对的是线性回归(我们总会假设线性回归是一条直线)。也就是说KNN建立的模型结构是根据数据来决定的,这也比较符合现实的情况,
2021-05-14 20:23:32 920
原创 B+树
B+树B+树是一种数据结构,是一个n叉树,通常用于数据库和操作系统的文件系统中。B+树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。B+树元素自底向上插入,这与二叉树恰好相反。在B+树中,所有记录节点都是按键值的大小顺序存放在同一层的叶节点中,各叶节点指针进行连接。简介B+树在节点访问时间远远超过节点内部访问时间的时候,比可作为替代的实现有着实在的优势。这通常在多数节点在次级存储比如硬盘中的时候出现。通过最大化在每个内部节点内的子节点的数目减少树的高度,平衡操作不经常发生
2021-05-12 21:23:02 666
转载 B树
B树一棵m阶B树是一棵平衡的m路搜索树。它或者是空树,或者是满足下列性质的树:根结点至少有两个孩子; 每个非根节点所包含的关键字个数 j 满足:m/2 < = j < = m-1 除根结点以外的所有结点(不包括叶子结点)的度数正好是关键字总数加1,故内部子树个数k满足:m/2 < = k < = m 所有的叶子结点都位于同一层,或者说根节点到每个叶子结点的长度都相同。 每个节点中的关键字都按照从小到大的顺序排列,每个关键字的左子树中的所有关键字都小于它,而右子树中的所
2021-05-11 21:50:49 167
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人