![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
yingzoe
这个作者很懒,什么都没留下…
展开
-
各种熵的整理
信息、信息熵、条件熵、信息增益、信息增益比、基尼系数、相对熵、交叉熵:https://blog.csdn.net/xbmatrix/article/details/56691137交叉熵:https://www.cnblogs.com/ljy2013/p/6432269.html#commentform期望交叉熵:1. https://baike.baidu.com/item/%E6%...转载 2019-08-26 16:35:01 · 562 阅读 · 0 评论 -
稀疏学习与压缩感知
1. 稀疏表示与字典学习当样本数据为稀疏矩阵时,对学习任务有不少好处:可以使许多问题变得线性可分 使存储更为高效稀疏矩阵:矩阵的 每一行/列都包含大量的零元素, 且这些零元素没有出现在同一行/列中。(非零元素远小于零元素)字典学习:侧重于为普通稠密表达的样本找到一个合适的矩阵稀疏表示:将样本转化为合适的稀释表示形式,从而使学习任务变得简单变量交替优化策略2. 压缩感知...转载 2019-04-20 10:37:39 · 1533 阅读 · 0 评论 -
【特征工程】特征选择方法
目录1. 为什么要进行特征选择?2.特征选择与特征降维的区别3. 特征选择方法:2.1 过滤式选择假设检验的内涵假设检验的步骤卡方检验和F检验的区别:2.2 包裹式选择2.3 嵌入法选择4. 高级特征详细参考内容在这里~1. 为什么要进行特征选择?(降维)减轻维度灾难的问题 去除不相关的特征往往可以降低学习任务的难度2.特征选择与特征...转载 2019-04-19 12:00:10 · 840 阅读 · 0 评论 -
【特征工程】数据离散化方法
参考链接:https://blog.csdn.net/programmer_wei/article/details/17200085https://blog.csdn.net/zhangf666/article/details/79203197为什么要进行离散化?离散化特征的增加和减少都很容易,有利于模型的快速迭代; 可以有效地避免一些异常数据的干扰,降低数据波动的影响,提高抗噪...转载 2019-04-20 17:28:28 · 4137 阅读 · 0 评论 -
scikit-learn 逻辑回归
逻辑回归官方使用文档:https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegressionclass sklearn.linear_model.LogisticRegression(penalt...原创 2019-01-26 21:37:52 · 303 阅读 · 0 评论 -
scikit-learn 支持向量机
参考链接:http://www.cnblogs.com/solong1989/p/9620170.html参数:C : float, optional (default=1.0)惩罚系数,用来控制损失函数的惩罚系数,类似于LR中的正则化系数。C越大,相当于惩罚松弛变量,希望松弛变量接近0,即对误分类的惩罚增大,趋向于对训练集全分对的情况,这样会出现训练集测试时准确率很高,但泛化能力弱,...原创 2019-01-26 17:00:24 · 243 阅读 · 0 评论 -
模型融合
原理:https://www.jianshu.com/p/c0ba78242466代码:https://blog.csdn.net/shine19930820/article/details/75209021#17-stacking1. 模型堆叠stacking【注意】在模型堆叠中,第二层将第一层得到的新的特征作为训练数据集的输入,不再利用原始的特征,为了避免过拟合。'''5折stacki...原创 2019-01-27 12:38:17 · 894 阅读 · 0 评论 -
数据处理的基础知识
1. 数据标准化:求均值标准差:(python) sklearn.preprocessing.scale(X) (scala) import org.apache.spark.ml.feature.StandardScaler 均值标准差 = (X - mean)/std 得到的结果是,对于每个属...原创 2019-01-08 16:24:20 · 1854 阅读 · 0 评论 -
聚类评价指标
内容参考于该博客,叙述得较为全面:https://blog.csdn.net/liuy9803/article/details/80762862我在此基础上再稍微做点总结和补充:****************************** 需要给定实际类别信息 labels_true **************************************1. 同分类的评价指标:混...转载 2019-01-07 15:17:20 · 2401 阅读 · 0 评论 -
python 字符串操作的相关整理
1. string 去掉标点符号:https://blog.csdn.net/chihwei_hsu/article/details/816042722. 正则表达式re.compile()的使用:https://blog.csdn.net/Darkman_EX/article/details/809736563. 替换字符的操作:https://www.cnblogs.com/sshcy...原创 2019-09-11 16:34:53 · 113 阅读 · 0 评论