NLP
小黑炭啦
这个作者很懒,什么都没留下…
展开
-
NLP系列——特征提取2
前面一篇 NLP系列——文本预处理1 写了文本的预处理,对语料进行了分词,将一篇文章,按我们选择的最小单位 短语、词语或者字符等 进行划分。划分后的语料,还是以文字的形式存在,接下去,首先是要建立词典将文本变成index表示(计算机处理的都是数字),然后以某种方式提取一个向量来表示文章,这就是特征向量。1. 构建词典NLP建立的模型,都有一个对应的词典(vocab),可以说模型只能处理词典里包含的词,如果文章中出现不在词典里的词,那么对于不存在的词很多时候是采用过滤或者随机生成表示的方法,所以对于一个模原创 2020-05-11 22:30:05 · 623 阅读 · 0 评论 -
NLP系列——文本预处理1
对一篇文章,一般的做法是先进行分词,后续是对词语进行语义特征提取与建模,不过也有人是用句子或者单字粒度,个人实验的结果是字符级比分词好,句子级没有试过。分词后是去除停用词以及标点符号,停用词表到github上搜索一下有挺多,里面是像咳、哇、哈这些没啥用的词,把他们去掉对文本语义没什么影响,却可以降低文本处理的复杂度,词的个数越少,表示一个词或者句子的向量维度就可以更低。1. 分词分词一般使用jieba库来分词,这里也推荐另一个 synonyms包。他是在jieba的基础上做的,在一些方面更方便,做一下原创 2020-05-09 17:31:23 · 446 阅读 · 0 评论 -
NLP系列——简介
自然语言处理(Natural language Processing, NLP)是对人的语言文字,也就是文本进行处理,让计算机明白的的一个技术。最近参加一个比赛,做了一些NLP的东西,打算写一些文章,目的主要是记录、梳理对NLP的知识和概念,水平有限,内容难免错漏,敬请各位大佬指正,不胜感激。原创 2020-05-09 17:22:59 · 294 阅读 · 0 评论