![](https://img-blog.csdnimg.cn/20190815161039375.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
《机器学习实战》
文章平均质量分 65
《机器学习实战》读书笔记
Joy CR
欢迎关注我的公众号: 小秋的博客
https://blog.csdn.net/xiaoqiu_cr
https://github.com/crr121
https://segmentfault.com/u/chenrong_flying
联系邮箱:rongchen633@gmail.com
展开
-
将SVD应用于推荐系统
1、什么是SVD singular value decomposition 奇异值分解,通过SVD实现从噪声数据中抽取相关特征 2、SVD的应用 2.1信息检索 隐形语义索引LSI:latent semantic indexing 隐形语义分析LSA:latent semantic analysis 再LSA中,一个矩阵是由文档和词语构成,我们利用SVD对矩阵进行分解,就会得到多个奇异原创 2018-02-07 16:39:15 · 425 阅读 · 0 评论 -
list indices must be integers or slices, not tuple
File "E:\Python36\regtree.py", line 45, in chooseBestSplit if len(set(dataSet[:,-1].T.tolist()[0])) == 1: #exit cond 1 TypeError: list indices must be integers or slices, not tuple 在测试树回归的时候,一直原创 2017-12-26 17:10:48 · 2537 阅读 · 0 评论 -
构建FP-growth算法高效发现频繁项集
1、构建FP树 1.1创建FP树的结构 #创建FP树的数据结构 #FP树的类定义 class treeNode: def __init__(self, nameValue, numOccur, parentNode): self.name = nameValue self.count = numOccur self.nodeLink =原创 2018-02-05 17:28:59 · 355 阅读 · 0 评论 -
python3 .6 下 报错 RuntimeError: dictionary changed size during iteration
循环字典键值,删除不符合要求的键值对def createTree(dataSet, minSup=1): #create FP-tree from dataset but don't mine headerTable = {} #go over dataSet twice for trans in dataSet:#first pass counts frequency of转载 2018-01-25 11:44:17 · 420 阅读 · 1 评论 -
Apriori进行关联分析
一、术语解释关联分析:从大规模数据集中挖掘物品之间的隐含关系频繁项集:经常出现在一块的物品集合关联规则:暗示两种物品之间可能存在很强的关联关系项集支持度:数据集中包含该项集的记录比例(这里可以定义一个最小项集的支持度,筛选出那些项集出现次数不是那么多,项集支持度不是那么大的集合)关联规则{a}->{b}置信度:{a,b}的支持度/{a}的支持度二、目标与假设假设商店有4中商品:0 1 2 3而我们原创 2018-01-18 14:48:54 · 553 阅读 · 0 评论 -
k-均值聚类
1、k-均值聚类 1.1、伪代码 创建k个点作为起始质心(经常是随机选择) 当任意一个点的簇分配结果发生改变时 对数据集中的每个数据点 . 对每个质心 计算质心与数据点之间的距离 将数据点分配到距其最近的簇 对每一个簇,计算簇中所有点的均值并将均值作为质心 1.2、核心代码 from numpy import * #将数据集每一行按照tab符号分割,并转为float类型,原创 2018-01-09 18:11:32 · 566 阅读 · 0 评论 -
树回归-CART
1、树回归的提出背景 线性回归需要拟合所有的样本(除了局部加权性回归),实际生活中大部分的问题是非线性的。所以需要将数据集进行切分成很多份容易建模的数据,然后利用线性回归的方法进行建模。但是一般一两次的切分仍然不能满足要求,所以就提出了树回归的方法 2、CART(classification and regression trees) 分类回归树 该算法不仅能用于分类,还能用于回归。 2....原创 2018-01-03 14:33:25 · 436 阅读 · 0 评论 -
支持向量机SVM
SVM的优缺点 优点:泛化错误率低,计算开销不大,结果容易解释 缺点:对参数的调节和核函数的选择敏感,原始分类器不佳修改仅适用于处理二分类问题 SVM的目的:找到一个超平面,也就是分类的决策边界,使得离超平面最近的点尽可能的远,而那些最近的点就是支持向量如何寻找最大间隔: 分隔超平面的形式:原创 2018-01-03 14:32:43 · 331 阅读 · 0 评论 -
根据某列值进行样本的分类
根据某列值进行样本的分类 ''' dataSet:数据集 feature:待划分的特征 value:对应的特征值 ''' def binSplitDataSet(dataSet, feature, value): #dataSet[:,feature]取出该列特征值 #dataSet[:,feature] > value将大于value的值筛选出来,得到的是true,false的原创 2017-12-26 11:33:57 · 646 阅读 · 0 评论 -
Logistic回归
1、什么是回归 已知数据集,求这些数据集的函数表达式的过程 2、原创 2017-12-14 11:48:27 · 598 阅读 · 0 评论 -
决策树算法
1、决策树的工作原理 (1)找到划分数据的特征,作为决策点 (2)利用找到的特征对数据进行划分成n个数据子集。 (3)如果同一个子集中的数据属于同一类型就不再划分,如果不属于同一类型,继续利用特征进行划分。 (4)指导每一个子集的数据属于同一类型停止划分。 2、决策树的优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据原创 2017-12-07 21:08:34 · 569 阅读 · 0 评论 -
朴素贝叶斯分类器
1、加载训练数据集,用于训练分类器 #加载数据集,用于训练分类器 def loadDataSet(): # 分词后的数据,一共有六个向量 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him',...原创 2017-12-12 18:13:53 · 433 阅读 · 0 评论