信息抽取
Zh823275484
联系方式:18328609398@163.com
展开
-
拼音转汉字
拼音转汉字主要是针对具有连续序列如:woaizhongguorenmingya,这种类型转化为汉字。其主要思路分为两步走,第一步是对拼音进行分割,以分割出正确的拼音;第二步是利用hmm方法,计算汉字的最大观测序列,从而得到最大概率的中文字链。算法描述: 第一步: 1、首先构建拼音的TrieNode树; 2、利用TrieNode树查找出字符串中所有匹配词; 3、选取最...原创 2019-02-27 15:15:55 · 10713 阅读 · 2 评论 -
基于依存句法和语义角色标注的事件三元组抽取
一、前言 句法分析是自然语言中关键技术之一,其主要任务时确定句法结构、句子中的词汇之间的依存关系;因而主要包括两方面的内容:一、确定语言的语法体系,即对句子结构给与形式化定义;二、句法分析技术,根据语法体系,推导出句子的句法结构,以及句法单位与句法单位之间的关系。 语义依存分析是分析句子中的各语言单位的关联,并将语义关联以依存的结构进行展示;语义依存分析目标是跨越句子表层句法结构的束缚...原创 2019-02-28 17:37:35 · 12628 阅读 · 10 评论 -
基于互信息的词语搭配抽取
一、前言 互信息,是衡量两个变量X和Y的相关性,对于离散信息互信息的表示如下: 对于连续性变量的定义如下: 其中p(x,y)为联合概率分布函数,p(x)和p(y)为边缘概率分布函数;这里的log来自于信息理论,当取log后,就将一个概率转换为了信息量(要再乘以-1将其变为正数),以2为底时,可以简单理解为取多少个bits表示这个变量。二、互信息与条件熵、联合熵的关系...原创 2019-03-01 14:08:19 · 3813 阅读 · 3 评论 -
文本特征提取
对文本处理一般是将句子分成词级别来进行处理,如果原始文本由几十万个中文词组成,那么将产生非常高的维度,因此为了剔除一些不必要的文本信息,需要从中提取与之相关的特征词,常用的方法有IG信息增益、df特征、CHI(卡方校验)、MI互信息方法等等。一、IG信息增益 一个系统中,某个变量的X,其取值有n种,分别为x1,x2,…,xn,因此X的信息熵为 信息增益是针对一个个特征而言,...原创 2019-03-05 14:05:47 · 1938 阅读 · 2 评论 -
基于CRF的实体识别
实体识别在实际生活中具有很大的 ,如识别一段文字中的人名,从而为构建知识图谱具有很重要的基础作用。常见的实体识别主要包括人名、地名、时间和组织机构;也可以根据业务的需求构建相应的实体,本文以CRF模型为理论支撑,利用人民日报的语料进行人名、地名、时间以及组织机构识别,从而对一段冗长的信息中提取出所需要的实体信息。 Crf的理论可以参考其资料进行阅读,本文主要是用于学习笔记以及后续其他业务...原创 2020-04-03 18:01:38 · 852 阅读 · 0 评论 -
词义消歧
词义消歧在nlp中是重要的核心问题之一,词义、句义以及篇章含义层次都会根据不同的上下文环境产生不同的意义,消歧就是指根据上下文确定对象语义的过程。词义消歧是在词语层次上的语义消歧,常常在搜索引擎、意见挖掘、文本理解与产生、推理中具有应用。一、常用的算法1、监督学习算法 a.确定词表和释义表,如目标词“bass”,有两个释义:乐器-贝斯,鱼类-鲈鱼; b.获取语料:Googl...原创 2019-03-04 14:17:18 · 7627 阅读 · 3 评论 -
关键信息提取
一、PageRank主要是基于图模型,计算网页的重要性,其公式主要如下: S(Vi)和S(Vj)都表示其PR值,为了防止重点问题(有些网站不指向其他网站)和陷进问题(自己指向自己),因此加了(1-d)和d这个阻尼系数。因此其公式实质就是P=A*P,该公式利用矩阵有比较好的理解,P代表转移矩阵(可以统计出来),A代表rank列。二、textRank则是基于PageRank算法的基础之上...原创 2019-03-04 18:06:10 · 2545 阅读 · 0 评论