线性代数:攀登机器学习的阶梯

机器学习中,数学为什么重要?

大家好,我是张雨萌,毕业于清华大学计算机系,目前从事自然语言处理相关的研究工作。撰写《机器学习中的数学》系列专栏并和大家一起共同交流学习,是我们准备了很久的一个计划。

当下,机器学习、人工智能领域吸引了许多有志者投身其中,其中包含了大量非科班出身或从其他行业切换赛道转行而来的朋友。大家在学习的过程中经常会感觉学习曲线陡峭、难度较大,而机器学习之所以这么难,首要原因就是数学知识需要得太多了

的确如此,机器学习是一个综合性强、知识栈长的学科,需要大量的前序知识作为铺垫。其中最核心的就是:绝大多数算法模型和实际应用都依赖于以概率统计线性代数微积分为代表的数学理论和思想方法。

比方说吧,如果你想对高维数据进行降维分析,提取和聚焦其主成分,需要的就是线性代数中空间的概念和矩阵分解的技巧;想理解神经网络的训练过程,离不开多元微分和优化方法;想过滤垃圾邮件,不具备概率论中的贝叶斯思维恐怕不行;想试着进行一段语音识别,则必须要理解随机过程中的隐马尔科夫模型;想通过一个数据样本集推测出这类对象的总体特征,统计学中的估计理论和大数定理的思想必须得建立。因此,数学基础是机器学习绕不开的重要阵地

机器学习中,三部分数学知识各自扮演什么角色?

针对这三部分内容,我们将在近期依次推出 《机器学习中的数学:概率统计》《机器学习中的数学:线性代数》《机器学习中的数学:微积分与最优化》、《机器学习中的数学:概率图与随机过程》 四个专栏。

在进入到线性代数这部分之前,我们先来看看这三部分数学知识在机器学习中各自扮演着什么样的角色,并梳理一下学科的内在逻辑。

第一:概率统计是利用数据发现规律、推测未知的思想方法

「发现规律、推测未知」也正是机器学习的目标,所以两者的目标高度一致。机器学习中的思想方法和核心算法大多构筑在统计思维方法之上。本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开。

第二:线性代数是利用空间投射和表征数据的基本工具

通过线性代数,我们可以灵活地对数据进行各种变换,从而直观清晰地挖掘出数据的主要特征和不同维度的信息。整个线性代数的主干就是空间变换,我们将从构筑空间、近似拟合、相似矩阵、数据降维这四大板块,环环相扣地呈现出与机器学习算法紧密相关的最核心内容。

第三:微积分与最优化是机器学习模型中最终解决方案的落地手段

当我们建立好算法模型之后,问题的最终求解往往都会涉及到优化问题。在探寻数据空间极值的过程中,如果没有微分理论和计算方法作为支撑,任何漂亮的模型都无法落地。因此,夯实多元微分的基本概念,掌握最优化的实现方法,是通向最终解决方案的必经之路。

线性代数有什么用?

作为 《机器学习里的数学》 系列的第二季,我们开始讨论机器学习里的线性代数

作为利用空间来投射和表征数据的基本工具,线性代数可以灵活地对数据进行各种变换,从而让研究人员更为直观、清晰地探查到数据的主要特征和不同维度所需的信息。因此,线性代数的核心地位不言而喻,只有熟练运用好这个工具,才能搭建起攀登机器学习的牢固阶梯。

机器学习和数据分析中究竟会有哪些地方需要用到线性代数?

  • 量化描述日常生活中的事物,比如个体的不同属性、自然语言中的词语、句子等等,用于支撑我们所要进行的算法分析
  • 将待处理的数据在不同维度的空间中进行变换处理,以找到最佳的观测角度,使得数据处理达到最好效果
  • 从采样的海量数据中提取出主要特征成分,梳理出数据的主要脉络,从而指导你对一个文本进行主题建模,帮助你利用协同过滤技术成功给用户推荐最喜爱的菜肴
  • 用数字表示图像,并且在不太影响观察效果的前提下,利用很小的存储空间近似达到原有图像的视觉效果
  • 对采集到的观测数据进行拟合,帮助我们找到其中暗含的规律,指导对未知数据的预测
  • 在实际的数据采样分析过程中,在无法找到精确解的情况下,探索到最接近真相的近似解

这些实用而有趣的问题,我们在数据分析和机器学习中几乎时时都会遇到。而想要解决好这些问题,线性代数的核心概念和思想方法都是必须要牢固掌握的,而这也正是本专栏的目的所在。

专栏的亮点和特色

  • 围绕主要脉络,贯穿整个学科:紧紧围绕空间变换这个线性代数的主要脉络,深刻理解如何用空间表示数据、用空间处理数据、用空间优化数据,用一条线索贯穿整个学科的主干内容。
  • 聚焦四大纬度,筑牢知识体系:从构筑空间、空间投影、矩阵特征、数据降维四大维度,围绕核心,聚焦重点,筑牢与机器学习紧密相连的线性代数知识体系。
  • 使用 Python 工具,无缝对接工程:教你用熟、用好 NumPy、SciPy、Matplotlib、Pandas 等工具库,无缝对接工程实践应用。
  • 理论结合实践,加深思想理解:大量实战案例与完整详细源码,不断加深对线性代数思想的深刻理解。

设计思路

贯穿整个线性代数的主干是空间变换,我们将从构筑空间空间投影矩阵特征数据降维这四大纬度,聚焦线性代数与机器学习算法结合最紧密的核心内容。

第 1 部分:构筑空间。这一部分我们将从空间坐标表示与线性变换入手,快速建立线性代数的直观感受,理解向量和矩阵运算的几何意义。同时探索空间——这个线性代数的概念基石,理解空间中的映射和变换的本质,深入学习矩阵在其中的灵魂作用。

第 2 部分:空间投影。这一部分我们将从空间投影的现象入手,将理论和工程进行紧密结合,掌握线性代数在近似与拟合中的理论基础,学习最小二乘法的原理与实际应用,并实践线性拟合、无解方程组的近似解问题。

第 3 部分:矩阵特征。这一部分是矩阵分析的核心重点,我们需要深刻领会矩阵相似性的几何意义以及特征值、特征向量的提取方法,用以打好数据降维的理论基础。

第 4 部分:数据降维。这一部分是整个线性代数知识脉络的交汇点,可以说是矩阵分析中最为精彩的地方。利用前面打下的概念基础,我们将深入地学习特征值分解和奇异值分解的方法,并利用这些工具进行数据的压缩和降维,实现对样本数据的主成分分析。

avatar

让我们一起开始这段学习旅程!

万丈高楼平地起,希望《机器学习中的数学》系列专栏能陪伴大家走好机器学习的学习与实践的必经之路、梳理纷繁复杂的知识网络、构筑好算法模型的数学基础。更重要的是,我希望我们能一起形成一种思维习惯:源于理论,我们条分缕析;面向实践,我们学以致用。 有了扎实的数学理论和方法基础,相信同学们都能登高望远、一往无前。

本专栏为付费读者建立了知识交流群,可联系作者微信zhangyumeng0422加入,请备注“CSDN专栏”。

 

  • 19
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

石 溪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值