1.分类
我们开始讨论要预测的变量y是一个离散值情况下的分类问题。我们将使用一个逻辑回归算法,先从只包含0和1两类分类问题开始。
这个例子中的训练集是对肿瘤进行恶性或良性分类得到的数据。
我们可以做的是对于这个给定的训练集把我们学过的线性回归算法应用到这个数据集,用直线对数据进行拟合。
尝试改变一下问题,将横轴延长一点,假如有另一个训练样本在最右边。看着训练集,这个假设似乎很好。
但是加上额外的例子后如果运行线性回归,会得到另一条直线去拟合数据,这个时候将阈值设为0.5,拟合情况如下图:
这似乎是一个很差劲的线性回归。所以将线性回归应用于分类问题通常并不是好主意。
2.假设陈述
逻辑回归模型:
假设陈述:
hθ(x)表示对于一个输入x,y=1的概论估计;
hθ(x) = P(y=1|x;θ) “在给定x的条件下y=1的概率”
3.决策边界
总结一下,如果我们要决定预测y=1还是y=0,取决于估值概率P(y=1|x;θ)是大于等于0.5还是小于0.5,这就是说我们将预测y=1,只需要θTx大于或等于0,另一方面我们将预测y=0,只需要θTx小于0
假设有一个训练集的假设函数是hθ(x) = g(θ0+θ1x1+θ2x2),设已经拟合好了参数,θ0=-3,θ1=1,θ2=1,其决策边界如下:
例二: