机器学习及其在信息检索中的应用——记李航研究员讲座

最新推荐文章于 2020-12-29 05:06:18 发布

zimohuakai

最新推荐文章于 2020-12-29 05:06:18 发布

阅读量5.2k

点赞数

分类专栏：数据挖掘/机器学习/自然语言处理文章标签：搜索引擎人脸识别性能优化 pair 算法生活

数据挖掘/机器学习/自然语言处理专栏收录该内容

19 篇文章 0 订阅

订阅专栏

李博士首先用AdaBoost算法在人脸识别领域的重要应用展现了机器学习对我们日常生活的影响。基于统计理论的学习以大量的训练数据作为学习基础，学习的最终过程是产生机器自动处理与自动决策的智能。接下来李博士介绍了监督学习，他首先使用了一组简单的01预测序列（可以表征在某种条件下明天会不会下雨的预测等等）介绍了监督学习的简单模型，并介绍了监督学习的三种形式的损失函数——指数损失、离散损失和平方损失，接下来李博士重点介绍了基于信息熵和信息增益的决策树方法。决策树决策基于不同预测属性对预测结果的不同影响，影响大的属性处于树的底层，由根节点自底向上进行预测，而衡量属性对结果的影响则采用计算信息增益的方法。

在介绍完统计机器学习的基本概念及决策树学习之后，李博士重点讲解了统计机器学习的一个重要方法——支持向量机（SVM）。SVM的简单情况是线性可分支持向量机分类机，李博士介绍了分化超平面（Separating Hyper Plane）的概念，并指出SVM的策略就是通过最大化正负样例的间隔（Margin）来确定分化超平面，这样原分类问题就转化成了凸规划问题，可以通过解一组最优化方程来确定分化超平面。李航博士接下来介绍了SVM的损失函数，个人感觉他对合页损失（hinge
loss）的讲解解答了很多我之前对这方面的疑惑J比如李老师介绍了损失函数公式：

在该公式中，1项是额外附加项，代表对在0附近“徘徊”的样例，即使分类正确，由于其计算绝对值很小，我们也把它当做需要“惩罚”的样例。在这里，对于加了L2范数的损失公式，我跟稳霖都问了关于规范项

意义的问题，李老师在讲座中曾提到这一项是问了防止模型的过拟合，一个直观的想法就是w中0项越多，模型越简单，过拟合的可能性也越小。但w的范数在表征其0项多少方面似乎并不是很好的标准。针对我们的问题，李老师指出因为间隔公式中含有

这一项，因此最小化w范数主要是为了最大化分划间隔，也可以从表征学习模型复杂度这一角度来理解其含义。在这一部分最后，李博士介绍了非线性支持向量分类机，这里的关键点就是核函数（Kernel Function），之前对核函数的理解比较肤浅，甚至觉得它只是一种尽力将乘法运算装化为加减法从而简化计算的工具。经过李老师的讲解，体会到了核函数的主要意义还在于将现行不可分的训练集转化为线性可分，并计算出高维空间的内积，从而在高维空间也可以使用线性支持向量机的方法，与线性模型相比不但几乎不增加计算的复杂性。

在讲座的最后一部分，李博士介绍了机器学习在信息检索中的实际应用，毕竟，我们的组别是“信息检索与挖掘组”，需要将研究成果转化为搜索引擎的性能优化J李老师介绍了机器学习在搜索引擎排序学习中的应用，不同于普通的学习过程，排序学习在数据标记、特征提取、学习模型方面更加复杂。李老师介绍可以将排序转化为document pair的二值分类问题：对于（xi,xj）的pair，如果xi排序在xj之前，则该样例为正例，否则为负例。这样在信息检索中的支持向量机方法就采用了修改的合页损失函数：

以此来进行学习的训练。

zimohuakai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习及其在信息检索中的应用——记李航研究员讲座

李博士首先用AdaBoost算法在人脸识别领域的重要应用展现了机器学习对我们日常生活的影响。基于统计理论的学习以大量的训练数据作为学习基础，学习的最终过程是产生机器自动处理与自动决策的智能。接下来李博士介绍了监督学习，他首先使用了一组简单的01预测序列（可以表征在某种条件下明天会不会下雨的预测等等）介绍了监督学习的简单模型，并介绍了监督学习的三种形式的损失函数——指数损失、离散损失和平方损失，接下
复制链接

扫一扫

专栏目录