![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本向量化
文章平均质量分 89
莫一丞元
根特大学PhD在读
展开
-
BERT理解
BERT 模型是 Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术,其中有五个关键词,分别是 Pre-training、Deep、Bidirectional、Transformers、和 Language Understanding,在 11 个 NLP 领域的任务上都刷新了以往的记录,例如GLUE,SquAD1.1,MultiNLI 等。前言Google 在论文《BERT: Pre-training of Deep Bidirectional T原创 2021-09-01 01:41:58 · 939 阅读 · 0 评论 -
FastText理解
背景fastText与word2vec相类似,该模型可用于训练词嵌入和文本分类。其中模型输入为文本的所有的单词以及n-gram特征,通过输入词矩阵进行加权,取均值,到达投影层,之后采用输出词矩阵,到达输出层(输出的是该文本属于不同类别的概率)。一般情况下会做如下两点的优化:在训练得到n-gram的词嵌入后,一般由于数量巨大,采用Hash桶的方式进行存储;在投影层之后,可以类似于word2vec的优化,采用层次softmax算法或负采样算法减少计算量。 此篇文章通过介绍哈希函数、n-gram原创 2020-09-13 23:11:19 · 548 阅读 · 0 评论 -
ELMO理解
背景对于13年的word2vec解决了多词一义的问题(即对于意思相近的词,词向量语义空间相似度高),但是对于一词多义问题并没有完美解决。相对于以前的word2vec或GLoVe方法,2018年的ELMo(Embeddings from Language Models,嵌入语言模型)以深度Bi-LSTM为基础,动态的学习词语的向量表示(即在不同语境下,同一词语对应不同词向量表示,解决一词多义。主要用于生成词向量,需要大量语料进行预训练)。ELMo词嵌入方法在下列几种NLP问题中能有效生成最先进(SOAT)的原创 2020-09-13 23:02:42 · 630 阅读 · 0 评论 -
Word2Vec理解
综述本文思想-先论述利用DNN(MLP)模型衍生的CBOW和skip-gram,然后论述负采样算法和哈夫曼树,最后总结Word2vec两种模型。词嵌入只是模型的副产品,即输入词矩阵。l 词袋模型就是将句子分词,然后对每个词进行编码,常见的有one-hot、TF-IDF、Huffman编码,假设词与词之间没有先后关系。l 词向量模型是用词向量在空间坐标中定位,然后计算cos距离可以判断词于词之间的相似性。1.负采样算法(基于skip-gram模型)例句(语料库):I want a glass原创 2020-09-12 23:13:07 · 225 阅读 · 0 评论 -
文本向量化综述
现阶段将文本向量化方法基础部分:独热编码、tfdif、序列相似度(将词替换成索引,其中索引是按照词频排列)、词移距离(包含两部分)、w2v、elmo、bert等。原创 2020-09-12 22:15:26 · 368 阅读 · 0 评论