最近跟完了Andrew Ng的Machine Learning前三周的课,主要讲解了机器学习中的线性回归(Linear Regression)和逻辑回归(Logistic Regression)模型。在这里做一下记录。
另外推荐一本统计学习的书,《统计学习方法》李航,书短小精悍,才200多页,但是内容基本上覆盖了机器学习中的理论基础。
笔记<1> 主要了解一下监督学习和无监督学习
机器学习:是关于计算机基于数据 构建概率统计模型 并运用模型对数据进行预测与分析的一门学科。
机器学习算法分类: 监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习(semi-supervised learing)和强化学习(reinforcement learning)。
监督学习
- 监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。
- 监督学习的目的在于学习一个由输入到输出的映射,即找到这样一个模型(又称为假设hypothesis)属于由输入空间到输出空间的映射的集合。
- 当输入变量和输出变量均为连续变量的预测问题称为回归(regression)问题;输出变量为有限个离散变量的预测问题称为分类(classification)问题;输入变量与输出变量均为变量序列的预测问题称为标注(tagging)问题。
(课程中的Housing price prediction 和 Breast cancer例子分别介绍回归问题和分类问题)
无监督学习
无监督式学习(Unsupervised Learning )是人工智能网络的一种算法(algorithm),其目的是去对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后,也可以将之应用到新的案例上。
无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
半监督学习
<https://en.wikipedia.org/wiki/Semi-supervised_learning>