油管最火十分钟机器学习数学课-向量

在机器学习中会经常看见向量这个词,这也是我们需要理解的重要概念之一。机器学习很大一部分是在寻求一种合适的方法,将数据集以编程的形式表现出来。使用向量,机器学习可以很好的处理多维问题,一个向量就是一维数组,可以看成表中一行数据对于四维数据,我们可以用一个1*4数组就可以表示出其四个特征值,称之为特征向量。矩阵中的每一行代表不同的数据点(不同特征),相应的每一列是该数据点的各个特征值。比向量小一点的范畴是标量,只有一个单个数字。矩阵、向量和标量也都可以统一称之为张量(tensor),张量是多维数组,一阶张量就是向量,二阶张量就是矩阵三阶以及更高阶张量叫做高阶张量。谷歌建了一个tensorflow,可以利用它创建一个知识图谱。首先通过数据得到张量,再利用张量通过一系列数学运算去优化一个目标。同时,还制造了一种全新的芯片叫做TPU即张量处理单元,随着计算能力和数据量增加,我们也越来越有能力处理多维数据。向量通常可以多种方式表示。

在一阶优化方法中,我们模型的权重随着每次训练逐步更新,给定一个误差函数,通过计算误差梯度反向操作来计算权值变化的大小和方向,这些都是运用线性代数得到的。代数基本上就是在说关系,是对未知关系的探索。线性代数意味着线性关系,是对矢量空间信息的规整,矢量空间使得同时控制不同组的数据变得容易,对控制类似矢量和矩阵数据结构有了定义,线性代数引入了不同的加、减、乘、除新的规则。

任何数据都能以向量方式显示,图像、音像、股票指数、文字、声音信号还有舞蹈,无论何种数据都能被分解成为一系列的数字。McCullough的研究者提出了一个神经网络的机器学习模型可以把单词变成矢量数据,用数学的形式捕捉单词的含义。比如the->(0.12,0.23,0.56)。会给出大量新闻稿进行学习,来学会预测出给定词语的下一个词语。所以给定的词语被编码成了向量数据,模型再试图预测下一个词语,如果预测与实际词语不同,就调整词语的向量值,所以数据里面的字词都像一个老师一样返回错误信号,从而,模型调整向量值。反复迭代模型学会了大量向量词语,给出一个新词汇就可以找到与之相关的向量词语。向量不仅仅只展示数据,也帮助我们展示我们的模型。很多机器学习模型都已向量来展示自己的学习过程,所有类型的神经网络也是如此。

一旦数据矢量化,我们可以做很多事,一个经过训练的“单词对向量”模型可以将单词转化成向量,然后我们可以对这些向量进行数学计算,看出单词之间的密切关系,通过计算单词向量之间的距离表示亲密程度,相似的单词倾向于聚集在一起。

向量的范数描述了向量的大小。通常向量的长度用欧几里得范数计算,L1范数和L2范数广泛地应用在机器学习中计算向量距离。L2范数是欧式范数,L1范数又叫哈曼顿距离。

概括起来,特征向量是用数学的方法来表示数据的数字或符号,使它们可以在多维向量空间表示出,从而可以进行计算,比如计算它们的距离。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值