如题,本文是网络开放课程机器学习(主讲 Andrew NG)纪要的第一篇。
这里给出Andrew NG最新的机器学习公开课网址(作者仍在更新),预计2015年1月19号在Coursera上公开(仅有英文版),之后可能会被网易公开课汉化。本系列是笔者用2天时间听完目前的30小节后的一些粗陋笔记,仅供了解机器学习的一些"行话"和工具,消除其“神秘感”。系统的学习,可以参见此文给的建议,并阅读一些论文和专著。希望大家都能学习顺利,互相交流。
一、问题分类
首先介绍了“Learning”的概念,这里略。Learning大体分为两类:有监督学习(supervised learning)和无监督学习(unsupervised learning)。之所以这样区分是因为前者针对的是:Give the right answer of given data.
有监督学习中又可以分为两大类问题:回归(regression)和分类(classification)。
回归regression:predict the value,找出训练集输入输出的明确关系,然后预测某次输入的输出;例如根据房屋面积估计价格。
分类classification:通常输入和输出是离散的,整个过程可以类比通信中的译码。例如判断是否是垃圾邮件。
注意,这两类问题的输入可以是高维的、有具体含义的变量,通常称作“特征”。特征的选取在这里并不是自动完成的。特征取的过少,会导致拟合不准确或分类不彻底;特征取的过多带来的稀疏性,不仅使得模型过拟合,而且训练集的相对不足会导致某些算法失效(由于需要矩阵求逆而此时矩阵是稀疏的、奇异的),这些都是后话。
继续阅读>>我的个人博客。欢迎大家去我的网站遛遛~~~