机器学习基础 总结笔记

1、sklearn:机器学习的一个包,能够自动在数据中寻找模式并对数据集进行分割。


2、当数据出现不平衡的现象的时候,需要一系列方法进行处理,避免模型出现不如预期的情况。


3、domain knowledge(摘自维基百科的定义):Domain knowledge is valid knowledge used to refer to an area of human endeavour, an autonomous computer activity, or other specialized discipline.


4、强相关又称高度相关,即当一列变量变化时,与之相应的另一列变量增大(或减少)的可能性非常大。在坐标图上则表现为散点图较为集中在某条直线的周围。


5、分析数据可以分为探索和验证两个阶段。探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。探索性分析一般表现为直方图和茎叶图。探索性数据分析的基本工具是图、制表和汇总统计量。一般来说,探索性数据分析是一种系统性分析数据的方法,它展示了所有变量的分布情况、时间序列数据和变换变量,利用散列矩阵图展示了变量两两之间的关系,并且得到了所有的汇总统计量。换句话说,就是要计算均值、最大值、最小值、上下四分位数和确定异常值。

→在机器学习的时候,如果能够对domain knowledge正确地运用,会让机器学习更加有效,同样,探索式数据分析(EDA)也相当重要。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

1、为某个模型将数据分成训练集和测试集的目的:

       训练集:这部分的数据适用于构建模型。

       测试集:这部分的数据适用于验证模型的泛化能力,评估模型的准确率。

       补充:有时候在训练集的时候会将训练集分成训练集和验证集两部分,其中验证集的目的是为了辅助构建模型,优化模型。

→机器学习的核心目的就是构建具有泛化能力的模型,如果没有测试集,或者用模型已经见过的数据来测试,都无法确切知道模型对预测未知数据的表现如何,也就无法衡量模型表现。


2、每个机器学习模型的建立都要有相对应的评价指标,评价模型的表现能力。例如:R^2,F1分数等。


3、传统的机器学习算法(又被称为基于统计的机器学习)在数据量达到一定程度后,更多的数据无法提升模型的表现。深度学习的一个优势就是它可以把大量的数据利用起来,提升学习表现。


4、偏差和方差的区别:

     用机器学习来判断一个物体是不是树叶,underfitting(欠拟合)是以为所有绿色的都是树叶(没学会该学的);overfitting(过拟合)是以为树叶都要有锯齿(学过头了,不该学的也学了进去)。这两者都不是我们想要的。


5、交叉验证:我们可以在不使用交叉验证的前提下只用网格搜索来调参。对于网格搜索来说,使用交叉验证的评估结果更准确,因为不使用交叉验证,训练数据可以按一定比例分为训练集和验证集。我们可以用这个训练集训练不同(参数)的模型,在验证集上跑分。选出最佳参数组合。但这样只是这一次划分验证集上表现最好的参数,如果验证集不具代表性。就会影响模型在未知数据上的表现。而交叉验证很大程度上避免因样本划分不合理导致选择了错误的参数。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值