![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Quinto0
Learning is the highest
展开
-
数据的特征工程
数据的特征工程1 什么是数据的特征工程特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性。特征工程的意义:将直接影响模型的预测结果。2 数据的来源与类型2.1 数据的来源企业日益积累的大量数据,各大机构的实验数据等等。总之数据无处不在,大...原创 2019-08-29 22:13:39 · 609 阅读 · 1 评论 -
非监督学习
非监督学习1 什么是非监(unsupervised learning)督学习无监督学习,就是不受监督的学习,一种自由的学习方式。该学习方式不需要先验知识进行指导,而是不断地自我认知,自我巩固,最后进行自我归纳,在机器学习中,无监督学习可以被简单理解为不为训练集提供对应的类别标识(label)...原创 2019-09-06 20:56:20 · 891 阅读 · 0 评论 -
逻辑回归-分类算法
目录 逻辑回归-分类算法1 概述2sigmoid函数3 逻辑回归公式4 逻辑回归的损失函数5 均方误差与对数自然损失对比6sklearn逻辑回归API7 案例8 总结 逻辑回归-分类算法1...原创 2019-09-06 15:34:58 · 2504 阅读 · 0 评论 -
拟合与岭回归
目录 拟合与岭回归1 什么是过拟合与欠拟合2 模型复杂度3 鉴别欠拟合与过拟合4 过拟合解决方法5 岭回归(Ridge)6 模型的保存与加载 拟合与岭回归1 什么是过拟合与欠拟合通过下面两...原创 2019-09-06 00:20:01 · 739 阅读 · 0 评论 -
线性回归分析-回归算法
线性回归分析-回归算法1 回归算法之线性回归 回归问题的判定:目标是连续的,在指定区间内可以是任意一个数值。 线性回归的定义是:目标值预期是输入变量的线性组合。线性回归通过一个或多个自变量与因变量之间进行建模的回归分析。 一元线性回归:涉及到的变量只有一个 多元线性回归:涉及到的变量两个或两个以上...原创 2019-09-05 21:55:18 · 8434 阅读 · 0 评论 -
随机森林-集成学习方法(分类)
随机森林-集成学习方法(分类)1集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。2 随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的...原创 2019-09-01 23:55:49 · 1460 阅读 · 0 评论 -
决策树-分类算法
决策树-分类算法1 认识决策树决策树是一种基本的分类方法,也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。2 特征选择特征选择在于选取...原创 2019-09-01 01:10:45 · 597 阅读 · 0 评论 -
模型的选择与调优
模型的选择与调优1 交叉验证1.1 交叉验证过程交叉验证:为了让被评估的模型更加准确可信交叉验证的意义:为了使一部分数据即当成验证集,也做过训练集,更加准确得出准确率,把最后的准确率取平均值。注意:线上的测试数据才有测试集如果没有测试数据集,怎么知道结果好与不好,那就把训练集分成训练集和验证集(和测试集没关系...原创 2019-08-31 19:26:39 · 320 阅读 · 0 评论 -
分类模型的评估
分类模型的评估在许多实际问题中,衡量分类器任务的成功程度是通过固定的性能指标来获取。一般最常见使用的是准确率,即预测结果正确的百分比,方法为estimator.score()1混淆矩阵有时候,我们关注的是样本是否被正确诊断出来。例如,关于肿瘤的的判定,需要更加关心多少恶性肿瘤被正确的诊断出来。也就是说,在分...原创 2019-08-31 17:10:39 · 225 阅读 · 0 评论 -
朴素贝叶斯算法-分类算法
朴素贝叶斯算法-分类算法1 概率基础概率定义为一件事情发生的可能性联合概率:包含多个条件,且所有条件同时成立的概率,记作P(A,B)条件概率:事件A在另一个事件B已经发生条件下的发送概率,记作P(A|B)在A1,A2相互独立的情况下,条件概率的特性:P(A1,A2|B)=P(A1|B)P(A2|B)2 贝叶斯公...原创 2019-08-31 16:12:20 · 602 阅读 · 0 评论 -
k近邻算法(KNN)-分类算法
k近邻算法(KNN)-分类算法1 概念定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。k-近邻算法采用测量不同特征值之间的距离来进行分类。2 优缺点优点:简单,易于理解,易于实现,无需估计参数,无需训练缺点:懒惰算法,对测试样本分类时的计...原创 2019-08-31 14:33:45 · 1541 阅读 · 0 评论 -
sklearn数据集与估计器
sklearn数据集与估计器1 sklearn数据集(1)数据来源:大多数以文件的形式 (csv文件..), 因为mysql有性能瓶颈、读取速度遭到限制,数据大的时候很费时间(2)读取数据的工具:Python中很强大的模块pandas:读取工具、numpy(数据计算模块,计算速度非常快,因为释放了Python中的GIL)...原创 2019-08-31 10:44:50 · 442 阅读 · 0 评论 -
逻辑回归原理
逻辑回归原理1 逻辑回归简介logistic回归(LR),是一种广义的线性回归分析模型,常用于数据挖掘,疾病预测,经济预测等方面。优点:计算代价低,思路清晰易于理解和实现;缺点:它是一个线性的分类器,不使用额外策略,处理不来非线性问题(线性分类器的通病),容易欠拟合,分类精度可能不高。逻辑回归是一个名...原创 2019-09-09 20:29:35 · 914 阅读 · 0 评论