前言
欢迎大家来看我的机器学习第二章,hhh这其实是第二次排版了,中午wifi坏了印象笔记没有自动保存,然后我写完之后点了下自动备份,它用我新建笔记的记录覆盖了我写完之后的记录…心累:)
拖更的时间有点久,这段时间基本把鲁伟老师的《机器学习 公式推导与代码实现》看完了,也有些自己的感悟,一直没有动笔是因为前段时间没太明白做这个的意义是什么,这些知识在书上已经很清晰了,想学的人大可以买一本自行阅读;嘛,反正这两天感觉There are thousand Hamlets in a thousand people’s eyes. 也许我比较通俗的理解可以带动一些初学的同学学习的热情?
跑远了,回归正题;机器学习整本书分为监督学习与无监督学习,本章我将介绍监督学习中除了线性回归我获益较深的对数几率回归与支持向量机;第三章我会开始介绍无监督学习并用个人的见解解释为什么称之为“无监督”第四章则是想和大家分享一个对聚类的小妙用,思想十分有意思,已经迫不及待写第四章了hhh
对数几率回归
之前的文章讲述了线性回归的基本思想:建立一个线性回归模型,基于这个模型不断输入训练数据进行最小二乘,使得这个模型与样本数据点的均方误差最小,以预测接下来输入的输入;但是很多时候我们希望我们的算法具有判断能力:
比如说我们是一群电商商人,我们有一批货物想卖出去,因此我们想把我们的商品推送给最有可能买的人。我们拥有过去访问过这批货物的用户记录,我们想通过这些记录里找出什么样的人最可能买我们的商品,之后我们便可以只把我们的商品推荐给符合这个判断标准的人。由于原数据很大我们不可能去用肉眼判断,那么我们可以把这个数据尝试从不同角度分类,例如:访问时间、访问地点、使用的手机(IOS/Android)/通过什么app访问的等等……我们可以把这些属性单独拿出来,分别列一个是否购买的表,然后把这些表合起来便可以知道什么样的人最可能购买我们的商品了。
提到是否购买,无非是买了(1)和没买(0);这是不是让一些学过信号与系统的同学们想到了sgn函数?没错我第一反应也是符号函数,但是我们想一想,如果使用sgn函数,像上一章一样处理后续步骤的时候会涉及到很多导数运算,sgn函数虽然很方便但是求导特性确实不尽人意(不连续)这会导致后续的决策概率不连续,会引出一些新的问题;那么不如让我们把思路放在良好的求导特性上,于是我们很快想到了我们今天的主角—sigmoid函数。
sigmoid函数: