机器学习--基本问题定义,任务确定和概念理解

机器学习从本质上是一个多学科的领域。它吸取了人工智能、概率统计、计算复杂性理论、控制论、信息论、哲学、生理学、神经生物学等学科的成功。机器学习,是计算机程序通过经验来提高某任务处理性能的行为。


更准确的定义:


定义:如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善。那么我们称这个计算机程序在从经验E中学习,针对某类任务T,它的性能用P来衡量。


通常,为了很好的定义一个学习问题,我们最后明确三个特征:


任务的种类,衡量任务提高的标准,经验的来源。


例如:
手写识别学习问题:
任务T:识别和分类图像中的手写文字
性能标准P:分类的正确率
训练经验E:已知分类的手写文字数据库(知识库)


当问题特征分析清楚后,最重要的就是对学习系统的设计了。


考虑学习系统:
1.要学习的知识的确切类型
2.对于这个目标知识的表示
3.一种学习机制


通常,最优化问题可以被归纳为一个搜索问题,只是相应的搜索空间很巨大,且最佳的搜索策略未。选择目标函数,目标函数通常和选择策略有关,或是一个对于选择策略评估的函数。目标函数的选取需要需问题而定,同时需要不断的尝试与比对。


通常,学习任务可以被简化为发现一个理想目标函数的可操作描述。通常要完美地学习一个这样的理想目标函数的是非常困难的。事实上,通常我们仅希望学习算法得到近似的目标函数,由于这个原因,学习目标函数的过程常被称为函数逼近(function appropriation)


选择目标函数的表示
选择模型(例如线性模型、人工神经网络等)
学习算法来训练其中的各种的参数和权重
对已有数据(训练样例)进行模型或函数的最佳拟合
不断学习和修正


在机器学习方面,一个有效的观点是机器学习问题经常归结于搜索问题,即对一个非常大的假设空间进行搜索,以确定一个最佳拟合观察到的数据和学习器已有知识的假设。通常,学习器的任务就是搜索某个搜索域空间来定位与训练数据最佳拟合的假设。


通过搜索策略和学习器探索的搜索空间的内在结构来刻画学习方法。我们会发现,这种观点对于形式化地分析要搜索的假设空间的大小、可利用的训练样例的数量以及一个与训练数据的一致的假设能泛化到未见实例的置信度这三者的关系很有效。


对于一个机器学习问题,常常需要思考如下问题:


1 存在什么样的算法能从特定的训练数据学习一般的目标函数呢?如果提供充足的训练数据,什么样的条件下会使特定的算法收敛到期望的函数?哪个算法对哪些问题和表示的性能最好。


2 多少训练数据是充足的?怎样找到学习到假设的置信度与训练数据的数量及提供给学习器的假设空间特性之间的一般关系?


3 学习器拥有的先验知识是怎样引导从样例进行泛化的过程的?当先验知识仅仅是近似正确时,它们会有帮助吗?


4 关于选择有效的后续训练经验,什么样的策略最好?这个策略的选择会如何影响学习问题的复杂性?


5 怎样把学习任务简化为一个或多个函数逼近问题?换一种方式,该系统试图学习哪些函数?这个过程本身能自动化吗?


6 学习器怎样自动地改变表示法来提高表示和学习目标函数的能力?



注明:以上内容,摘自和总结于 Mitchell,T.M 《Machine Learning》
阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xinxing__8185/article/details/45563415
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭