![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
Yasin_
这个作者很懒,什么都没留下…
展开
-
词嵌入之Word2vec
one-hot向量的局限性假设词典大小为N(词典中不同词的数量),每个词可以和从0到N−1的连续整数索引一一对应。使用one-hot方式来表示单词时,词向量维度大小为整个词汇表的大小,改词索引位置为1,其余位置为0,每个词就表示成了一个长度为N的向量,可以直接被神经网络使用。虽然one-hot词向量构造起来很容易,但有两个缺点:在语料库过大时,词汇表可能达到百万级别,但向量只有一个位置是1...原创 2019-05-12 20:15:32 · 2279 阅读 · 0 评论 -
文本表示
导言文本分类是自然语言处理中研究最为广泛的任务之一,通过构建模型实现对文本内容进行自动分类,有很多应用场景,比如新闻文章主题分类,产品评论情感分类,检索中用户查询的意图分类等等。文本分类的大致流程:文本预处理,抽取文本特征,构造分类器。其中研究最多的就是文本特征抽取,更广义上说是文本表示。关于文本表示,研究者从不同的角度出发,提出大量的文本表示模型。本文重点梳理现有模型,大致分为三类,即基...原创 2019-05-18 11:32:00 · 1957 阅读 · 0 评论