机器学习
一.常见机器学习类型
(一).监督学习
1.定义:x -> y
input -> output
2.例子:
(1)常见例子
3.术语:
(1)回归(Regression):
从无限多的可能数字中试图预测一个数字
具体例子:房价预测
(2)分类(Classification):
预测一个类别,所有可能输出都是一小组
例子:
(3)分类与回归区别
分类:离散的,输出的是有限集合
回归:输出无限多可能的数字
(二).无监督学习
1.定义:
数据只带有输入x,而没有输出标签y。算法必须在数据中找到结构。
2.术语:
(1)聚类(Clustering)
获取未标记的数据并尝试自动分组到不同集群中
具体例子:谷歌新闻关键词
具体例子:用户分组
(2)异常检测(Anomaly detection)
(三).监督学习与无监督学习区别
监督学习:从标有正确答案的数据中学习
无监督学习:在未标记的数据中查找有趣的内容
二.线性回归模型
(一)术语:
1.基本术语:
x:输入变量/特征
y:输出变量/目标变量(训练集中的真实值)
ŷ:估计值/预测值
m:训练样本总数
f:模型
(x,y):单个训练样本
x->f->ŷ:特征->模型->预测值
( x ( i ) x^(i) x(i), y ( i ) y^(i) y(i)):第i个训练样本
2.线性回归
单变量线性回归/一个变量的线性回归:只有一个输入变量的或特征x
(二)代价函数
1.基本术语:
f
w
,
b
f_w,_b
fw,b
(
x
)
(x)
(x) =
w
x
+
b
wx + b
wx+b
y
^
(
i
)
=
f
w
,
b
ŷ^(i) = f_w,_b
y^(i)=fw,b
(
x
(
i
)
)
(x^(i))
(x(i))
f
w
,
b
f_w,_b
fw,b
(
x
(
i
)
)
(x^(i))
(x(i)) =
w
x
(
i
)
+
b
wx^(i) + b
wx(i)+b
w,b:参数/系数/权重
2.问题:
对所有的(
x
(
i
)
x^(i)
x(i),
y
(
i
)
y^(i)
y(i)),如何找到w,b使得
y
^
(
i
)
ŷ^(i)
y^(i)接近
y
(
i
)
y^(i)
y(i)
3.代价函数定义:
问题:如何衡量一条线与训练数据拟合程度
误差: x ( i ) − y ( i ) x^(i) - y^(i) x(i)−y(i)
平方误差代价函数: