NLP
文章平均质量分 90
菜菜雪丫头
这个作者很懒,什么都没留下…
展开
-
【无监督学习和有监督学习的区别】
1、有监督学习:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。就如有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。又如我们小的时候不知道牛和鸟是否属于一类,但当我们随着长大各种知识不断输入,我们脑中的模型越来越准确,判断动物也越来越准确。有监督学习可分为回归和分类。回归:即给出一堆自变量X和因变量Y,拟合出一个函数,这些自变量X就是特征向量,因变量Y转载 2022-03-31 21:51:54 · 10954 阅读 · 0 评论 -
【相似性度量中用到的一些距离函数】
1.欧氏距离(欧几里得距离 Euclidean Distance)最常见的距离度量,即欧几里得距离。它是一种距离度量,直观解释为连接两点的线段的长度。公式:优点低维数据并且向量的大小对于测量很重要时,欧几里德距离效果很好。缺点虽然它是一种常见的距离度量,但欧几里德距离不是尺度不变的,这意味着计算的距离可能会根据要素的单位而发生偏斜。通常,在使用此距离度量之前需要对数据进行归一化。此外,随着数据维度的增加,欧几里得距离变得越来越没有用,另外高维下距离非常不直观。2.余弦相似度 Cosine原创 2022-03-30 21:25:51 · 1737 阅读 · 1 评论 -
【梯度消失和梯度爆炸问题详解】
1.为什么使用梯度下降来优化神经网络参数?目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。这样做是有一定原因的,首先,深层网络由许多非线性层堆叠而来,每一层非线性层都可以视为是一个非线性函数 (非线性来自于非线性激活函数),因此整个深度网络可以视为是一个复合的非线性多元函数。我们最终的目的是希望这个非线性函数很好的完成输入到输出之间的映射,也就是找到让损失函数取得极小值。所以最终的问题就变成了一个寻找函数最小值的问题,在数学上,原创 2022-03-26 20:56:37 · 1790 阅读 · 0 评论 -
Efficient Estimation of Word Representations in Vector Space
1.1 Goals of Paper本文的主要目标是介绍一些技术,这些技术可用于从包含数十亿个单词的庞大数据集中学习高质量的单词向量,并在词汇表中包含数百万个单词。据我们所知,之前提出的架构中没有一个能够成功地训练超过数亿个单词,单词向量的维数在50-100之间。我们使用最近提出的技术来测量结果向量表示的质量,期望不仅相似的单词彼此接近,而且单词可以具有多个相似度[20]。这在之前的屈折变化语言中已经观察到了——例如,名词可以有多个词尾,如果我们在原始向量空间的子空间中搜索相似的词,就有可能找到具有翻译 2021-09-09 16:41:51 · 1111 阅读 · 0 评论