无关风月

冰冻三尺非一日之寒

Word2Vec、fastText、Glove训练词向量

Word2Vec 环境: gensim 3.5.0 python 3.6.1 训练 import logging import os.path import sys import multiprocessing from gensim.corpora import WikiCorpus from ...

2019-05-18 20:28:15

阅读数 312

评论数 0

word2vec与相关应用

NLP相关任务 自动摘要 指代消解 小明放学了,妈妈去接【他】 机器翻译 小心地滑->Slide carefully 词性标注 heat(v.) water(n.) in(p.) a(det.) pot(n.) 分词(中文,日文等) 大水沟...

2019-03-08 15:34:16

阅读数 4064

评论数 0

NLP原理及基础

以NLTK为基础配合讲解自然语言处理的原理http://www.nltk.org/ Python上著名的自然语⾔处理库 自带语料库,词性分类库 自带分类,分词,等功能 强⼤的社区⽀持 还有N多的简单版wrapper,如 TextBlobNLTK安装# Mac/Unix sudo pip ...

2017-12-25 20:09:41

阅读数 4107

评论数 2

深度学习与NLP简单应用

Intro 问题原型:Text —> Label 行业 Baseline:⽤用 BoW 表示 sentences,然后⽤用 LR 或者 SVM 做回归。(Fan et al. 2008) 中英文区别: 英文直接使用空格分词,中文需要专门的方法进行分词: Deep...

2017-12-02 18:54:23

阅读数 1893

评论数 0

隐马尔科夫模型(HMM)

马尔科夫链马尔科夫链,因安德烈.马尔科夫(A.A.Markov,1856-1922)得名,是指数学中具有马尔科夫性质的离散事件随机过程。每个状态的转移只依赖于之前的n个状态,这个过程被称为1个n阶的模型,其中n是影响转移状态的数目。 最简单的马尔科夫过程就是一阶过程,每一个状态的转移只依赖于其之...

2017-11-24 16:42:35

阅读数 4869

评论数 2

从NB到N-gram语言模型

1、引言:朴素贝叶斯的局现象朴素贝叶斯的局限性来源于其条件独立假设,将文本看成词袋模型,不考虑词语之间的先后顺序,比如“武松打死了老虎”与“老虎打死了武松”会被认为以一个意思。N-gram语言模型能提高对词语顺序的识别能力。2、N-gram语言模型2.1 从假设性独立到联合概率链规则照抄我们垃圾邮...

2017-11-12 21:01:17

阅读数 390

评论数 0

朴素贝叶斯应用之语种检测

用朴素贝叶斯完成一个语种检测的分类器预料库为twitter数据,包含English, French, German, Spanish, Italian 和 Dutch 6种语言。 1 december wereld aids dag voorlichting in zuidafrika ove...

2017-11-12 14:45:23

阅读数 209

评论数 0

朴素贝叶斯应用之文本分类

贝叶斯理论我们有一堆带标记的样本(包含 特征 和 类别),可以从中统计得到 p(特征|类别)p(特征|类别)根据 全概率公式: P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)P(Y,X) = P(Y|X)P(X)=P(X|Y)P(Y)得到 贝叶斯公式: P(Y|X)=P(X|Y)...

2017-11-11 20:20:58

阅读数 717

评论数 0

朴素贝叶斯

by 寒小阳 1. 引言¶贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式¶贝叶斯公式就一行: P(Y|X)=P(X|Y)P(Y)P...

2017-11-08 21:55:49

阅读数 11916

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭