Week1 Class 1--机器学习简介
目录
1.2 无监督学习 Unsupervised learning
1 机器学习定义
1.1 监督学习 Supervised learning
定义:提供学习算法示例以供学习
正确答案:对于给定输入x和正确的标签y,通过观察输入x和标签y正确配对。
过程:输入示例x和正确答案y来训练
学习之后,采用新的输入x,产生对应的y
监督模型实例:提供一个数据集,提供正确答案即标签价格y
分为两个类型:回归(Regression) 和 分类(Classification)
回归:从许多数字中预测一个无限接近数字,有无穷种可能
分类:分为0和1 或错与对 预测一个范围内的类别结果,有限种可能
1.2 无监督学习 Unsupervised learning
区别:不试图监督算法
定义:数据只有输入x 没有输出标签y。将没有标记的数据集放入不同集群中
主要类型:聚类算法(Clustering) 异常检测(Anomaly detection) 降维(Dimensionality reduction)
聚类:将相似数据分为一组
异常检测:用于检测异常的事件 eg:异常交易 诈骗
降维:将一个大数据集压缩成小数据集,尽可能少丢失信息
2 线性回归模型
2.1 线性回归模型
是一种特殊类型的监督学习,被称为回归模型,预测数字作为输出。
下面是常用的机器学习术语:
x:输入变量,特征值(features)
y:输出变量,目标值(targets)
m:训练样本的个数
(x,y):单个训练样本
:表示第i个训练样本 i不是平方,是训练的样本数
:表示对y输出值的预测
:这个函数意味着f是一个以x作为输入的函数,根据w和b的值,f将输出预测y-hat的某个值。
这是具有一个变量x的线性回归,只有一个输入变量或者特征值。
成本函数的思想:是机器学习中最普遍和最重要的思想之一,用于线性回归和训练人工智能模型。
图2.1 线性回归模型不同展现形式
2.2 代价函数模型
训练集的直线有无数种,如何找出 与训练数据最拟合的线 还不明确,于是本节就来介绍 代价函数(cost funtion)。在机器学习中,代价函数用于 衡量模型的好坏,最简单、最常用的代价函数是“平均误差代价函数”(Squared error cost function):
m:训练样本的总数
:第 i 样本的真实目标值。
:对 i 样本的预测目标值,即f(x)的取值
的值为代入x值后公式的结果, 的值为红色八叉显示的值
最小化代价函数目的:选择一个w的值使得J代价为最小值 (上图仅仅使用w简化问题)
图2.2 可视化代价函数 (包含w、b)