NLP
AI_盲
努力爬。。。
展开
-
中文分词
什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学转载 2017-04-20 21:17:29 · 838 阅读 · 0 评论 -
NLP笔记
NLP笔记问答系统:三个重要模块:提问处理模块(查询关键词生成、答案类型确定、句法和语义分析)、检索模块(根据查询关键词做信息检索)、答案抽取模块(从检索出的句子或段落里抽取出和提问一致的实体,再根据概率最大对候选答案排序)。分词、命名实体识别和词性标注这三项技术如果达不到很高的水平,是难以建立起高性能的自然语言处理系统。中文自动分词最难的两个问题:1)歧义消除;2)未登陆词识别。原创 2017-08-22 11:38:54 · 4851 阅读 · 0 评论 -
HMM+CRF笔记
HMM+CRF笔记CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型,只不过HMM使用隐含变量生成可观测状态,其生成概率有标注集统计得到,是一个生成模型;而CRF反过来通过可观测状态判别隐含变量,其概率亦通过标注集统计得来,是一个判别模型。由于两者模型主干相同,其能够应用的领域往往是重叠的,但在命名实体、句法分析等领域CRF更胜一筹。CRF和HM原创 2017-08-24 14:09:56 · 1866 阅读 · 0 评论 -
理解Word2Vec
NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。从很大的词库corpus里选V个频率最高的词(忽略其他的) ,V一般比较大,比如V=10W,固定这些词的顺序,然后每个词就可以用一个V维的稀疏向量表示了,这个向量只有一个位置的元素是1,其他位置的元素都是0。这个向量的维度是词表大小,其中绝大多数元素为 0,只有...原创 2017-08-24 14:13:51 · 963 阅读 · 0 评论