2018年04月_yaochuyi

原创抓取网易云音乐歌曲热门评论生成词云

如何解析网页就不介绍了，可以参考: https://blog.csdn.net/Monkey_D_Newdun/article/details/79318629 直接上代码~刚刚突然听到一首老歌，SHE的《听袁惟仁弹吉他》，就爬这首的评论吧～这首歌的ID是3750951. 抓取热门评论内容import requestsimport jsondef getcomments(m...

2018-04-27 21:03:09 907

转载 XGBoost算法

XGBoost (eXtreme Gradient Boosting)参考：原理： xgboost入门与实战（原理篇） https://blog.csdn.net/sb19931201/article/details/52557382 xgboost原理及应用–转 https://www.cnblogs.com/zhouxiaohui888/p/6008368.html调参： ...

2018-04-25 20:43:38 246

转载 GBDT算法

公式推导没太懂…直接移步大佬博客吧梯度提升树(GBDT)原理小结 https://www.cnblogs.com/pinard/p/6140514.html挑一些重要的记下来1. GBDT概述GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭...

2018-04-25 10:25:20 353

转载集成学习之AdaBoost

AdaBoost(Adaptive Boosting ) 转自：http://www.cnblogs.com/pinard/p/6133937.html1. 回顾boosting算法的基本原理有几个具体的问题Boosting算法没有详细说明:如何计算学习误差率e?如何得到弱学习器权重系数α?如何更新样本权重D?使用何种结合策略？只要是boosting大家族的算法，都...

2018-04-24 21:18:46 366

转载朴素贝叶斯

naive bayes 垃圾邮件识别

2018-04-23 02:35:01 146

转载随机森林RF

Random Forest 是Bagging算法的进化版，也就是说，它的思想仍然是bagging,但是进行了独有的改进。bagging+CART决策树=随机森林首先，RF使用了CART决策树作为弱学习器；第二，在使用决策树的基础上，RF对决策树的建立做了改进，对于普通的决策树，我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分，但是RF通过随机选择节点上的一部...

2018-04-23 02:28:22 212

原创决策树

决策树模型决策树举例相亲栗子：再来一个栗子：机器学习算法其实很古老，作为一个码农经常会不停的敲if, else if, else,其实就已经在用到决策树的思想了。只是你有没有想过，有这么多条件，用哪个条件特征先做if，哪个条件特征后做if比较优呢？怎么准确的定量选择这个标准就是决策树机器学习算法的关键了。1970年代，一个叫昆兰的大牛找到了用信息论中的熵来度量决策树的决...

2018-04-23 02:04:49 414

转载 PCA算法

PCA的思想投影介绍从两种思路推导PCAPCA算法流程及总结KPCA介绍

2018-04-22 21:25:56 7146 2

原创常见算法总结

监督学习监督学习分为两大类：回归分析线性回归分类 logistic回归、SVM、KNN、朴素贝叶斯、决策树、随机森林、GBDT、Adaboost、XGboost、LDA无监督学习聚类 k-means、PCA、关联规则深度学习CNN、RNN强化学习马尔可夫决策过程常见的十种机器学习算法https://blog.csdn.net/h...

2018-04-22 11:48:12 359

原创 k-meas算法

k-means & KNNk-means与kNN虽然都是以k打头，但却是两类算法——kNN为监督学习中的分类算法，而k-means则是非监督学习中的聚类算法；二者相同之处：均利用近邻信息来标注类别。k-means基本算法在k-means算法中，用质心来表示cluster；且容易证明k-means算法收敛等同于所有质心不再发生变化。基本的k-means算法流程如下：选...

2018-04-22 10:45:00 2361

原创 kNN算法原理

KNN算法概述KNN算法的思想K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法。它的思想是：在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。KNN算法的描述1）计算测试数据与各个训练数据之间...

2018-04-22 01:06:22 5357

原创正则化(2)机器学习和深度学习中的正则化方法

参考： https://blog.csdn.net/u012162613/article/details/44261657 https://blog.csdn.net/liujiandu101/article/details/551038311. 正则化方法：防止过拟合，提高泛化能力正则化(1) L1和L2正则化2. DropoutL1、L2正则化是通过修改代价函数来实现的...

2018-04-21 20:35:04 391

原创集成学习之bagging和boosting

什么是集成学习？将多个分类方法聚集在一起，以提高分类的准确率。 （这些算法可以是不同的算法，也可以是相同的算法）集成学习法由训练数据构建一组基分类器，然后通过对所有基分类器的预测投票进行分类。严格来说，集成学习并不算是一种分类器，而是一种分类器结合的方法。通常，一个集成分类器的分类性能会好于单个分类器。如果把单个分类器当作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项...

2018-04-21 20:29:14 990

原创正则化(1) L1和L2正则化

正则化（Regularization）参考： https://blog.csdn.net/jinping_shi/article/details/52433975 https://blog.csdn.net/u012162613/article/details/442616571. 正则化的概念规则化 vs 正则化 - 规则化，顾名思义，给你的模型加入某些规则，来达到某些目的（...

2018-04-21 01:59:23 1495

转载 SVM(4)松弛变量与惩罚因子

http://www.blogjava.net/zhenandaci/category/31868.html近似线性可分现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：圆形和方形的点各有成千上万个（毕竟，这就是我们训练集中文档的数量嘛，当然很大了）。现在想象我们有另一个训练集，只比原先这个训练集多了一篇文章，映射到高维空间以后...

2018-04-20 18:26:35 1051

核函数以下内容来自http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html 之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么...

2018-04-20 02:11:15 420

转载 SVM(2)问题的描述与求解

参考：http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.html 上节说到我们有了一个线性分类函数，也有了判断解优劣的标准——即有了优化的目标，这个目标就是最大化几何间隔，但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||ω||||ω||||\omega||这样的说法，这是怎么回事呢？回头再看看我们对间隔和...

2018-04-20 00:46:19 355

转载 SVM(1)简介

参考：http://www.blogjava.net/zhenandaci/category/31868.html 也可参考刘建平大佬博客：http://www.cnblogs.com/pinard/p/6097604.htmlSVM简介http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html 所谓VC维是对函数...

2018-04-19 20:08:06 277

原创 logistic回归损失函数与梯度下降

逻辑回归中，假设函数hypothesis hθ(x)hθ(x)h_\theta(x)为： hθ(x)=g(θTx)=11+e−θTx=g(θTx+b)hθ(x)=g(θTx)=11+e−θTx=g(θTx+b)h_\theta(x)=g(\theta^\mathrm{T}x)=\frac{1}{1+e^{-\theta^\mathrm{T}x}}=g(\theta^\mathrm{T}x+b) ...

2018-04-19 14:30:46 6950 3

yaochuyi的博客