NLP
~无关风月~
手在键盘敲很轻
展开
-
朴素贝叶斯
by 寒小阳1. 引言¶贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式¶贝叶斯公式就一行: P(Y|X)=P(X|Y)P(Y)P(X)P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)} 而它其实是由以下的联合概率公式推导转载 2017-11-08 21:55:49 · 12337 阅读 · 1 评论 -
朴素贝叶斯应用之文本分类
贝叶斯理论我们有一堆带标记的样本(包含 特征 和 类别),可以从中统计得到 p(特征|类别)p(特征|类别)根据 全概率公式: P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)P(Y,X) = P(Y|X)P(X)=P(X|Y)P(Y)得到 贝叶斯公式: P(Y|X)=P(X|Y)P(Y)P(X)P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}从机器学习的视角,XX 认为转载 2017-11-11 20:20:58 · 1350 阅读 · 0 评论 -
朴素贝叶斯应用之语种检测
用朴素贝叶斯完成一个语种检测的分类器预料库为twitter数据,包含English, French, German, Spanish, Italian 和 Dutch 6种语言。 1 december wereld aids dag voorlichting in zuidafrika over bieten taboes en optimisme,nl 1 millón de afect转载 2017-11-12 14:45:23 · 682 阅读 · 0 评论 -
从NB到N-gram语言模型
1、引言:朴素贝叶斯的局现象朴素贝叶斯的局限性来源于其条件独立假设,将文本看成词袋模型,不考虑词语之间的先后顺序,比如“武松打死了老虎”与“老虎打死了武松”会被认为以一个意思。N-gram语言模型能提高对词语顺序的识别能力。2、N-gram语言模型2.1 从假设性独立到联合概率链规则照抄我们垃圾邮件识别中的条件独立假设: P((“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”转载 2017-11-12 21:01:17 · 845 阅读 · 0 评论 -
隐马尔科夫模型(HMM)
马尔科夫链马尔科夫链,因安德烈.马尔科夫(A.A.Markov,1856-1922)得名,是指数学中具有马尔科夫性质的离散事件随机过程。每个状态的转移只依赖于之前的n个状态,这个过程被称为1个n阶的模型,其中n是影响转移状态的数目。 最简单的马尔科夫过程就是一阶过程,每一个状态的转移只依赖于其之前的那一个状态。用数学表达式表示就是: 假设天气服从马尔科夫链 转移矩阵如果已知今天是晴天,那么明天转载 2017-11-24 16:42:35 · 19553 阅读 · 1 评论 -
NLP原理及基础
以NLTK为基础配合讲解自然语言处理的原理http://www.nltk.org/ Python上著名的自然语⾔处理库 自带语料库,词性分类库 自带分类,分词,等功能 强⼤的社区⽀持 还有N多的简单版wrapper,如 TextBlobNLTK安装# Mac/Unixsudo pip install -U nltk# 顺便便还可以装个Numpysudo pip install -U转载 2017-12-25 20:09:41 · 10339 阅读 · 2 评论 -
word2vec与相关应用
NLP相关任务自动摘要指代消解 小明放学了,妈妈去接【他】机器翻译 小心地滑->Slide carefully词性标注 heat(v.) water(n.) in(p.) a(det.) pot(n.)分词(中文,日文等) 大水沟/很/难/过主题识别文本分类NLP处理方法传统:基于规则现代:基于统计机器学习 HMM,CRF,SVM,LDA,C转载 2019-03-08 15:34:16 · 7665 阅读 · 0 评论 -
深度学习与NLP简单应用
Intro问题原型:Text —> Label行业 Baseline:⽤用 BoW 表示 sentences,然后⽤用 LR 或者 SVM 做回归。(Fan et al. 2008)中英文区别: 英文直接使用空格分词,中文需要专门的方法进行分词: Deep learning is a branch of machine learning based on a set of...转载 2017-12-02 18:54:23 · 3101 阅读 · 0 评论 -
Word2Vec、fastText、Glove训练词向量
Word2Vec环境:gensim 3.5.0python 3.6.1训练import loggingimport os.pathimport sysimport multiprocessingfrom gensim.corpora import WikiCorpusfrom gensim.models import Word2Vecfrom gensim.models.wo...原创 2019-05-18 20:28:15 · 2292 阅读 · 0 评论