知识图谱
文章平均质量分 67
因岗位再次变动,本专栏暂时停更(还没学完...)
加油上学人
算法研究员。擅长数据结构、最优化、矩阵论、概率统计、微积分。加油打工人
展开
-
知识图谱-关系抽取
关系抽取有基于字符模式的抽取、基于语法模式的抽取、基于语义模式的抽取、自动化模式抽取和基于学习的抽取。基于学习的抽取是目前的主流方法,因此主要介绍基于学习的抽取。基于学习的抽取分为基于监督学习、基于弱监督学习和基于远程学习的抽取。从模型的角度来看,无论是采用哪种方法,都可以采用序列标注方式或者序列分类模型进行,如果已经给定了实体位置,使用分类模型更方便。1. 基于监督学习的关系抽取监督学习是利用标注数据进行学习的一种方法,在监督学习的关系抽取中,核心问题是如何从标注样本中抽取有用的特征,常用的特征有:原创 2022-05-08 11:34:44 · 1335 阅读 · 0 评论 -
命名实体识别(Named Entity Recognition,NER)
命名实体识别是指在文本中定位命名实体的边界并分类到预定义类型的集合的过程。实体的标注形式有BIOE等,其中B是body的缩写,I是in的缩写,O是output的缩写,E是expect的缩写。NER的输入是一个句子对应的单词序列s=<w1,w2,...wn>s=<w_1,w_2,...w_n>s=<w1,w2,...wn>,输出是一个三元组集合,其中每个元组形式为<Is,Ie,it><I_s, I_e,i_t><Is,Ie,it&原创 2022-04-29 21:00:14 · 1049 阅读 · 0 评论 -
长短时记忆网络LSTM
网络介绍长短时记忆网络(Long short time memory network, LSTM)是RNN的重要变体,解决了RNN无法长距离依赖的问题,同时缓了RNN的梯度爆炸问题。LSTM由遗忘门、输入门、重置门和输出门四部分组成,当中使用了tanhtanhtanh和sigmoidsigmoidsigmoid作为激活函数。模型概述使用记忆单元C~t{{\tilde{C}}_{t}}C~t解决长距离依赖和梯度爆炸的问题,使用CtC_tCt避免梯度消失的问题。在 LSTM中,将文本看成一个文本序列,原创 2022-04-29 16:12:29 · 603 阅读 · 0 评论 -
条件随机场CRF
CRF可以方便的处理各类序列标注问题,最常见的形式是链式结构,其最大的优点是,每次标注都会充分考虑已有结果的影响。给定一个输入的字符序列C=c1c2...cTC=c_1c_2...c_TC=c1c2...cT,输出序列LLL的计算过程:P(L∣C)=1Z(C)exp(∑t=1T∑kλkfk(lt,lt−1,C,t))P(L|C)=\frac{1}{Z(C)}exp(\sum_{t=1}^T\sum_k \lambda_kf_k(l_t,l_{t-1},C,t))P(L∣C)=Z(C)1exp(∑t翻译 2022-04-27 00:14:30 · 200 阅读 · 0 评论 -
知识图谱-词汇挖掘
叙词表:叙词表又被称为主题词表,是一个针对特定学科领域的词汇表,也可以是涉及多个学科领域的综合性词汇表。改词汇表又一些雨衣相关的规范化名词术语组成。通常按照主题词首字母的顺序进行组织。词汇挖掘=短语挖掘,短语是真一个单词或者多个连续的单词组成的序列。对于短语的质量,从以下几方面评估:1)频率:一般来说,一个N-Gram在给定的文档集合中要出现的足够频繁才能被视作高质量短语。2)一致性:是指N-Gram的搭配频率明显高于其各部分偶然组成在一起的可能性,反应了N-Gram中不同单词的搭配是否合.原创 2022-04-26 23:28:30 · 1748 阅读 · 0 评论 -
NLP中的基本概念
自然语言处理以不同的粒度处理自然语言。对于一个英文句子"“my name is xiaowang”,基本组成单元是字符(character),由空格符得到的是单词(word)。如果不考虑单词出现的重复情况,这个句子认为有4个token。加上标点符号的叫句子(Sentence),多个句子组成的叫段落(Paragraph),多个段落组成的叫篇章(Document)NLP的常见任务:断句(Sentence Segmentation)通过标点符合实现词性标准(Tokenization)是给句子中的原创 2022-04-24 23:52:29 · 338 阅读 · 0 评论 -
知识表示-马尔科夫链(MC)
马尔科夫链MC是一种满足马尔可夫性的离散随机变量集合。所谓马尔可夫性是指给定一个随机变量的邻居信息,该随机变量的独立于其他所有的非邻居变量,即当前随机序列的下一个状态,仅仅与当前的状态有关,而与之前的状态没有关系。(有点类似于DP思想)。当随机变量集合{X1,X2,...XN{X_1, X_2,...X_N}X1,X2,...XN}满足马尔可夫性时,以下公式成立:P(Xt+1∣Xt,...X1)=P(Xt+1∣Xt)P(X_{t+1}|X_t,...X_1)=P(X_{t+1}|X_t)P(Xt原创 2022-04-24 23:32:31 · 275 阅读 · 0 评论 -
知识表示-概率图模型
有向无环图贝叶斯网络,也被成为信念网络或者有向无环图,是一种概率图模型,也是不确定知识表示的典型方法。一个贝叶斯网络就是一个有向无环图,其中节点代表一组随机变量x=x1,x2,...xnx={x_1,x_2,...x_n}x=x1,x2,...xn,节点之间的有向边代表随机变量之间的相互影响,XiX_iXi->XjX_jXj之间的有向边表示XjX_jXj的分布取决于XiX_iXi的取值。通常,XiX_iXi又称做因(Casue),XjX_jXj成为果(Effect)。因此贝叶斯网络原创 2022-04-24 23:21:22 · 295 阅读 · 0 评论 -
知识图谱开篇笔记
因为实习需要涉及到相关的内容,边学边记,当做一个笔记来看!加油,上学人!原创 2022-04-24 16:35:00 · 1272 阅读 · 0 评论 -
知识表示之知识图谱的图和数值表示
知识表示是对显示世界的一种抽象表达,评价知识表示的两个因素是表达能力(expressiveness)和计算效率(efficiency)知识表示主要分为符号表示和数值表示,常用的知识表示方法是RDF,这是一种基于图的知识表示方法,另外几种是知识图谱、语义网络、实体关系图。1. 知识图谱的图表示:基于图的表示:在很多场景下, 图又被成为网络(Network),一个图就是一个二元组G=G(U,V),其中v表示节点集,E表示边的集合,图表达了节点集上的二元关系。这一部分与数据结构中的图非常像,有无向图和有向原创 2022-04-21 23:12:21 · 1966 阅读 · 0 评论