Python深入浅出总结~

一、概要

1.有监督学习:通过现有训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习方法。

2.无监督学习(非监督式学习):则是在没有训练数据集的情况下,对没有标签的数据进行分析并建立合适的模型,以便给出问题解决方案的方法。

分类和回归是有监督学习中两个常见的方法。

3.分类:机器学习的目标是对样本的类标签进行预测,判断样本属于哪一个分类,结果是离散的数值。

4.回归:其目标是要预测一个连续的数值或范围。

5.模型的泛化:在有监督学习中,我们会在训练数据集上建立一个模型,之后把这个模型用于新的,从未见过的数据中,这个过程称为模型的泛化。

6.过拟合:如果我们在训练数据集上使用了一个非常复杂的模型,以至于这个模型在拟合训练数据集时表现非常好,但是在测试数据集时的表现非常差,说明模型出现了过拟合的问题。

7.欠拟合:如果模型过于简单,连训练数据集的特点都不能完全考虑到的话,那么这样的模型在训练数据集和测试数据集的得分都会非常差,则说明模型出现了欠拟合的问题。

二、Python所用库的介绍

1.Numpy——基础科学计算库:是一个python中非常基础的用于进行科学计算的库,它的功能包括高维数组计算、线性代数计算、傅里叶变换以及生成伪随机数等。

2.Scipy——强大科学计算工具集:是一个python中用于进行科学计算的工具集,它有很多功能,如计算统计学分布、信号处理、计算线性代数方程等。

3.pands——数据分析的利器:是一个python中用于进行数据分析的库,它可以生成类似Excel表格式的数据表,而且可以对数据表进行修改操作。它可以从很多不同种类的数据库中提取数据,如SQL数据库、Excel表格甚至SCV文件。pandas还支持在不同的列中使用不同类型的数据,如整数型、浮点数、字符串。

4.matplotib——画出优美的图形:是一个python的绘图库,它以各种硬拷贝格式和跨平台的交互环境生成出版质量级别的图形,它能够输出的图形包括折线图、散点图、直方图等。

5.scikit-learn——非常流行的python机器学习库:建立在Scipy基础上的用于机器学习的Python模块,它包含众多顶级机器学习算法,主要有六大类的基本功能,分别是分类、回归、聚类、数据降维、模型选择和数据预处理。(它拥有活跃的用户社区,里面有各种详尽的文档供用户参考,可以通过阅读用户指南以及文档,来对其算法的使用有更充分了解。

三、K最近邻算法——近朱者赤,近墨者黑

K最近邻算法是一个非常经典而且原理十分容易理解的算法,可用分类和回归,但是K最近邻算法在实际使用中会有很多问题,列如它需要对数据集认真地进行预处理、对规模超大的数据集拟合的时间较长、对高位数据集拟合欠佳、以及对稀松数据集束手无策等。
所以在当前的各种应用场景中,K最近邻算法的使用并不多见。

四、广义线性模型——“耿直”的算法模型

线性模型是使用输入数据集的特征的线性函数进行建模,并对结果进行预测的方法。
常用的线性模型包括;线性回归、岭回归、套索回归、逻辑回归和线性SVC等。

五、朴素贝叶斯——打雷啦,收衣服啦

朴素贝叶斯算法是一种基于贝叶斯理论的有监督学习算法。该算法不用考虑样本特征之间的关系,认为样本特征之间是互相独立的,因而朴素贝叶斯分类器的效率是非常更高的。在scikit-learn中包含三种算法:贝努利朴素贝叶斯、高斯贝叶斯、多项式朴素贝叶斯。

六、决策树与随机森林——会玩读心术的算法

决策树:优点是可以将模型进行可视化(使用graphviz库),几乎不需要对数据进行预处理。缺点

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值