机器学习
啥都只会一点的研究僧
这个作者很懒,什么都没留下…
展开
-
多元线性回归
通过最小化预测值和真实值之间的RSS(残差平方和,多元线性回归的损失函数)来求解参数的方法时最小二乘法。原创 2020-05-14 16:01:07 · 288 阅读 · 0 评论 -
聚类衡量指标
当真是标签知道时用:互信息分和V-messure 来衡量聚类效果。此种情况很少见。原创 2020-05-06 21:43:56 · 242 阅读 · 0 评论 -
评分卡制作思路
原创 2020-05-06 21:40:06 · 460 阅读 · 0 评论 -
梯度下降基本知识
原创 2020-05-06 21:37:45 · 136 阅读 · 0 评论 -
逻辑回归中的损失函数
原创 2020-04-28 21:22:38 · 405 阅读 · 0 评论 -
sklearn中的逻辑回归
原创 2020-04-28 17:01:25 · 127 阅读 · 0 评论 -
为什么用逻辑回归
原创 2020-04-28 17:00:01 · 541 阅读 · 0 评论 -
逻辑回归理解
原创 2020-04-28 16:39:42 · 102 阅读 · 0 评论 -
PCA和特征选择技术都是特征工程的一部分,他们有什么不同?
PCA和特征选择技术都是特征工程的一部分,他们有什么不同?特征选择是从已经存在的特征中选取携带信息最多的,选完之后的特征依然具有可解释性,我们仍然能知道特征在源数据的哪个位置,待表数据的什么含义。PCA是将已经存在的特征进行压缩,降维完成后的特征不再是源数据中的任何一个特征,而是通过通过某种方式组合起来的特征,新的特征矩阵不再具有可读性,属于特征创造的一种。...原创 2020-04-27 10:42:14 · 792 阅读 · 0 评论 -
主成分分析PCA和奇异值分解(1)
矩阵分解: 用新的n个新特征向量,让数据能够被压缩到少数特征上,并且总信息量不损失太多的技术叫做矩阵分解。PCA和SVD 是两种不懂的降维算法,但都遵循降维过程,只不过矩阵分解的方法不同,信息量的衡量指标不同,。PCA是用方差作为信息量的衡量指标,方差越大,信息量越多,降维步骤:...原创 2020-04-27 10:15:47 · 105 阅读 · 0 评论 -
特征工程
特征选择: 过滤法,嵌入法,包装法,降维算法。方差过滤法(VarianceThreshold)通过特征的方差来筛选特征, 优先消除方差为0的特征。默认方差为0,参数threshold 可以调节方差的阈值。from sklearn.feature_selection import VarianceThresholdselector = VarianceThreshold()x_var0 =...原创 2020-04-27 10:09:48 · 94 阅读 · 0 评论 -
数据预处理
数据挖掘的五大流程1.获取数据2.数据预处理从数据中检测,纠正,删除损坏,不准确,不适用的数据,可能的问题有:数据类型不同,比如有文字,有的是数字,有的含有时间序列,有的质量不行,有噪声,有异常,有缺失,有重复,等等。目的: 让数据适应模型,匹配模型的需求。3.特征工程将原始数据转换成更能代表预测模型的潜在问题的特征的过程。可以通过挑选最相关的特征,提取特征以及创造特征,(通常用...原创 2020-04-27 10:01:32 · 165 阅读 · 0 评论 -
机器学习中调参的基本思想(随机森林,决策树)
1.高手通常是来自经验。(1) 经验来自: 正确的调参思路,对模型的理解。不断尝试。2.新手一般是画学习曲线,或者网格搜索。3.机器学习中 ,用来衡量模型在未知数据上的准确率,叫做泛化误差。 模型在测试集或者袋外数据上表现糟糕时,称作模型的泛化误差大,泛化成度不够。 当模型太复杂时,模型就会过拟合,泛化能力不够,泛化误差大,当模型太简单,模型就会欠拟合。 误...原创 2020-04-26 10:27:31 · 401 阅读 · 0 评论 -
准确率、精确率、召回率、F—score比较
举例来说,用血压值来检测一个人是否有高血压,测出的血压值是连续的实数(从0~200都有可能),以收缩压140/舒张压90为阈值,阈值以上便诊断为有高血压,阈值未满者诊断为无高血压。二元分类模型的个案预测有四种结局:真阳性(true positive, TP):诊断为有, 实际上也有高血压;伪阳性(false positive,FP):诊断为有,实际却没有高血压;真阴性(true negat...原创 2020-04-23 22:12:24 · 2359 阅读 · 0 评论