机器学习当中的一些概念

Machine Learning 

1.什么是机器学习?

1、一般应用

    垃圾邮件分类、图像识别、人脸识别、数字识别

    传统解决思路:

        编写规则,定义“垃圾邮件”,让计算机执行:将一封邮件输入到传统算法,经判断输出结果;

        弊端:对问题本身的规则很难定义;规则在不断变化;

2、人类学习过程

 通过一定的样本资料,经过大脑的学习、归纳、整理、总结,获取知识和经验,在遇到类似的事务就可以根据经验和知识做出判断。

3、机器学习过程

 对机器学习的算法,输入大量的学习资料,经过训练,得到一个可以以执行任务的算法(也称为模型);在遇到新的样例,该模型可以做出判断。

4、实例应用

 判断信用卡发放是否有风险、搜索引擎、电商平台的推荐系统、语音识别、人脸识别

 无人驾驶、安全领域、医疗领域、金融领域、市场领域、智能翻译

2.机器学习与数据挖掘的区别

机器语言是指在没有明确的程序指令的情况下,给予计算机学习能力,使它能自主的学习、设计和扩展相关算法。

数据挖掘则是一种从非结构化数据里面提取知识或者未知的、人们感兴趣的数据,在这个过程中应用了机器学习算法。

3.什么是机器学习的过度拟合现象? 

在机器学习中,当一个统计模型首先描述随机误差或噪声,而不是自身的基本关系时,过度拟合就会出现。当一个模型是过于复杂,过拟合通常容易被发现,因为相对于训练数据类型的数量,参数的数量过于五花八门。那么这个模型由于过度拟合而效果不佳。举一个例子,在一个识别的任务当中,我们得到树叶的边缘是锯齿形的属性,这样在判断的过程中有锯齿形状属性会给树叶的识别增加一定的权重,当新的叶子没有锯齿形状的时候这个就很有可能被判断不是树叶,这样就导致了过度拟合。

 4.过度拟合

        4.1 产生的原因

由于用于训练模型的标准并不等同于判断模型效率的标准,这导致了产生过度拟合的可能性。

        4.2 如何避免过度拟合

当你使用较小的数据集进行机器学习时,容易产生过度拟合,因此使用较大的数据量能避免过度拟合现象。但是,当你不得不使用小型数据集进行建模时,可以使用被称为交叉验证的技术。在这种方法中数据集被分成两节,测试和训练数据集,测试数据集只测试模型,而在训练数据集中,数据点被用来建模。

具体的办法有:

       4.2.1. 正则项:L1,L2等,其中L1可以产生稀疏解

       4.2.2. 数据集增强:例如将图像旋转变化等

       4.2.3. 加入噪声:可以将噪声加入数据或参数中

       4.2.4. Early Stoping:机器学习和深度学习中都会用到

       4.2.5. Dropout:深度学习中用的比较多

       4.2.6. Bagging等集成

5.学习的问题?

  • 如何评价算法的好坏;
  • 如何解决过拟合和欠拟合;
  • 如何调节算法的参数;
  • 如何验证算法的正确性;
  • 算法原来的学习;
  • 部分算法底层的编写;
  • scikit-learn机械学习库的使用;

6.什么是感应式的机器学习?

感应机器学习涉及由实践进行学习的过程,能从一组可观测到的例子的尝试推导出普遍性规则。

7.机器学习的流行的算法?

       kNN、线性回归、多项式回归、逻辑回归、模型正则化、PCA、SVM、决策树、随机森林、集成学习

       #逻辑回归、决策树、随机森林,这3种算法使用较多。

       #机械学习算法的工程师总是在不停的调参;

       #学习算法要会调库,但又不能仅会调库,

8.机器学习有哪些不同的算法技术?

在机器学习不同类型的算法技术是:

  1. 监督学习   2.非监督学习   3. 半监督学习    4. 转导推理(Transduction)   5.学习推理(Learning to Learn)。

9.在机器学习中,建立假设或者模型的三个阶段指的是什么?

1.建模    2.模型测试    3.模型应用。

 10.什么是监督学习的标准方法?

监督学习的标准方法是将一组示例数据的分成训练数据集和测试数据集。

 11.什么是训练数据集和测试数据集?

在类似于机器学习的各个信息科学相关领域中,一组数据被用来发现潜在的预测关系,称为“训练数据集”。训练数据集是提供给学习者的案例,而试验数据集是用于测试由学习者提出的假设关系的准确度。

 12.下面列出机器学习的各种方法?

机器学习的各种方法如下

1.概念与分类学习(Concept Vs Classification Learning)。

2.符号与统计学习(Symbolic Vs Statistical Learning)。

3.归纳与分析学习(Inductive Vs Analytical Learning)。

 13.非机器学习有哪些类型?

人工智能、规则推理。

 14.什么是非监督学习的功能?
       1.求数据的集群    2. 求出数据的低维表达    3. 查找数据有趣的方向    4. 有趣的坐标和相关性   5.发现显著的观测值和数据集清理

 15.什么是监督学习的功能?

1.分类   2.语音识别   3.回归   4.时间序列预测   5. 注释字符串

 16.什么是算法独立的机器学习?

机器学习在基础数学领域独立于任何特定分类器或者学习算法,被称为算法独立的机器学习。

 17.人工智能与机器学习的区别?

基于经验数据的特性而设计和开发的算法被称为机器学习。

而人工智能不但包括机器学习,还包括诸如计算机视觉,自然语言处理(NLP),机器人技术等其它方法。

 18.在机器学习中分类器指的是什么?

在机器学习中,分类器是指输入离散或连续特征值的向量,并输出单个离散值或者类型的系统。

 19.朴素贝叶斯方法的优势是什么?

朴素贝叶斯分类器将会比判别模型,譬如逻辑回归收敛得更快,因此你只需要更少的训练数据。其主要缺点是它学习不了特征间的交互关系。

 20.在哪些领域使用模式识别技术?

模式识别被应用在:

       1.计算机视觉    2.语言识别    3.统计    4.数据挖掘    5. 非正式检索    6. 生物信息学。

21.什么是遗传编程?

遗传编程的机器学习中两种常用的方法之一。该模型是基于测试,并在一系列的结果当中,获取最佳选择。

22.在机器学习中归纳逻辑程序设计是指什么?

归纳逻辑程序设计(ILP)是利用逻辑程序设计表达的背景知识和实例,它是机器学习的一个分支。

23.在机器学习中,模型的选择是指?

在不同的数学模型中,选择用于描述相同的数据集的模型的过程被称为模型选择。模型选择吧被应用于统计,机器学习和数据挖掘的等相关领域。
24.用于监督学习校准两种方法是什么?

在监督学习中,用于预测良好概率的两种方法是:普拉特校准  2. 保序回归。   这些方法被设计为二元分类,而且有意义的。

 25. 什么方法通常用于防止过拟合?

当有足够的数据进行等渗回归时,这通常被用来防止过拟合问题。

 26.规则学习的启发式方法和决策树的启发式方法之间的区别是什么?

决策树的启发式方法评价的是一系列不相交的集合的平均质量;然而规则学习的启发式方法仅仅评价在候选规则覆盖下的实例集。

 27.什么是感知机器学习?

在机器学习,感知器是一种输入到几个可能的非二进制输出的监督分类算法。

 28.贝叶斯逻辑程序的两个组成部分是什么?

贝叶斯逻辑程序由两部分组成。第一成分由一组贝叶斯条款组成,能捕捉特定域的定性结构。第二组分是定量的,它能对域的量化信息进行编码。

 29.什么是贝叶斯网络?

贝叶斯网络是用来表示一组变量之间为概率关系的图像模型。

 30.为什么基于实例的学习算法有时也被称为懒惰学习算法?

基于实例的学习算法也被称为懒惰学习算法,因为它们延缓诱导或泛化过程,直到分类完成。

 31.支持向量机能处理哪两种分类方法?

1.结合二分类法   2. 修改二进制纳入多类学习法。

 32.集成学习

       32.1 定义:

为了解决特定的计算程序,如分类器或专家知识等多种模式,进行战略性生产和组合。这个过程被称为集成学习。

32.2 为什么集成学习被应用?

集成学习能提高模型的分类,预测,函数逼近等方面的精度。

32.3.什么时候使用集成学习?

当你构建一个更准确,相互独立的分类器时,使用集成学习。

32.4.什么是集成方法的两种范式?

集成方法的两种范式是:1.连续集成方法   2. 并行集成方法。

32.5 什么是集成方法的一般原则,在集成方法中套袋(bagging)和爆发(boosting)指的是什么?

集成方法的一般原则是要结合定的学习算法多种预测模型,相对于单一模型,其有更强的健壮性。套袋是一种能提高易变的预测或分类方案集成方法。爆发方法被依次用来减少组合模型的偏差。爆发和装袋都可以通过降低方差减少误差。

32.6 什么是集成方法分类错误的偏置方差分解?

学习算法的期望误差可以分解为偏差和方差。偏置项衡量由学习方法产生的平均分类器与目标函数是否匹配。

32.7 在集成方法中什么是增量合成方法?

增量学习方法是一种从新数据进行学习,并能应用于后续由现有的数据集生成的分类器的算法。

 33.PCA,KPCA和ICE如何使用?

PCA(主成分分析),KPCA(基于内核主成分分析)和ICA(独立成分分析)是用于降维的重要特征提取技术。

 34.在机器学习中降维是什么意思?

在机器学习和统计应用中,降维是指在计算时减少随机变量数目的处理过程,并且可以分为特征选择和特征提取。

 35.什么是批量统计学习?

统计学习技术允许根据一组观察到的数据进行学习功能和预测,这可以对无法观察和未知的数据进行预测。这些技术提供的学习预测器对未来未知数据的预测提供性能保证。

 36什么是PAC学习?

可能近似正确模型 (PAC) 学习是一个已经被引入到分析学习算法和统计效率的学习框架。

 37有哪些不同的类别可以分为序列学习过程?

序列预测2. 序列生成3. 序列识别4. 顺序决定.

 38什么是序列学习?

序列学习是一种以合乎逻辑的方式进行教学和学习的方法。

 39.机器学习的两种技术是什么?

机器学习的两种技术是:1.遗传编程2.归纳学习

 40.你在日常工作中看到的机器学习的一个流行应用是什么?

各大电商网站上已部署好的推荐引擎使用的是机器学习。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值