宗成庆-统计自然语言处理
文章平均质量分 73
读书笔记
只鸥周
这个作者很懒,什么都没留下…
展开
-
11.统计机器翻译
在基于HMM的词对齐模型中,源语言句子相当于 HMM 中的观测序列,对齐位置a为内部状态序列,翻译概率 p(f;利用求解 HMM学习问题的方法,可以获得初始概率、输出概率和状态转移概率等参数,然后利用解码算法就可以获得最优内部状态序列 a,即两个句子中词语之间的韦特比对齐结果。由IBM研究人员提出:一个翻译系统看成一个噪声信道,对于一个观察到的信道输出 S,寻找最大可能的输入 T,概率 P(T)为目标语言的语言模型,P(S|T) 给定T情况下 S的翻译概率,称作。基于最大熵的翻译框架。原创 2023-09-03 10:49:04 · 91 阅读 · 0 评论 -
9.语义分析
统计消歧方法的基本观点是,一个词的不同语义一般发生在不同的上下文中。在有监督的消歧方法中,可以根据训练数据得知一个多义词所处的不同上下文与特定词义的对应关系,那么,多义词的词义识别问题实际上就是该词的上下文分类问题,一旦确定了上下文所属的类别,也就确定了该词的词义类型。因此,有监督的学习通常也称为分类任务(classification task)。原创 2023-09-03 10:47:52 · 61 阅读 · 0 评论 -
7.自动分词
其基本思想是:首先根据词典(可以是从训练语料中抽取出来的词典,也可以是外部词典)对句子进行简单匹配,找出所有可能的词典词,然后,将它们和所有单个字作为结点,构造的 n 元的切分词图,图中的结点表示可能的词候选,边表示路径,边上的 n 元概率表示代价,最后利用相关搜索算法(如Viterbi算法)从图中找到代价最小的路径作为最后的分词结果。二是指已有的训练语料中未曾出现过的词。前驱字段里的(i,j)表示沿当前路径到达当前结点的最后一条边的出发结点是i,这条边对应的是结点i的信息记录表中编号为j的路径。原创 2023-09-03 10:46:49 · 58 阅读 · 0 评论 -
13.文本分类和情感分析
根据分类知识获取方法的不同,文本自动分类系统大致可分为两种类型:基于知识工程(knowledge engineering,KE)的分类系统和基于机器学习(machine learning,ML)的分类系统。在20世纪80年代,文本分类系统以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机文本分类的依据,然后分析这些系统的技术特点和性能。进入90年代以后,基于统计机器学习的文本分类方法日益受到重视,这种方法在准确率和稳定性方面具有明显的优势。原创 2023-09-03 10:49:45 · 41 阅读 · 0 评论 -
14.信息检索和问答系统
如何实现用户查询词与相关文档的准确匹配是困扰信息检索技术的一个关键问题作为用户来讲,一般都希望基于概念和内容查询相关文档,而单个的词往往很难提供文档概念主题或语义的可靠证据,一方面,对于一个给定的概念往往有很多不同的表达方式因此,利用用户查询中的文字项可能无法匹配相关的文档(查询用户和文档作者可能使用不同的文字表达同样的概念);LSI的基本思想是:首先从全部的文档集中生成一个“词项-文档”关联矩阵,该矩阵的每个分量为整数值,代表某个词项出现在某个特定文档中的次数。原创 2023-09-03 10:50:27 · 171 阅读 · 0 评论 -
8.句法分析
句法分析(syntactic parsing)是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构(syntactic structure)或句子中词汇之间的依存关系。一般来说,句法分析并不是一个自然语言处理任务的最终目标,但是,它往往是实现最终目标的重要环节甚至是关键环节。(目前在大模型时代,这个已经是不太关键了)句法分析句法结构分析又可称为成分结构分析(constituent structureparsing)或短语结构分析(phrase structure parsing)。原创 2023-09-03 10:47:21 · 272 阅读 · 0 评论 -
10.篇章分析
Beaugrande and Dressler(1981)认为篇章具有衔接性(cohesion)、连贯性(coherence)、意图性(intentionality)、信息性(informativity)、可接受性(acceptability)、情景性(situationality)和跨篇章性(intertextuality)等 7个基本特征。其中,接性、连贯性意图性和信息性这四个基本特征对自然语言处理产生了深远的影响。原创 2023-09-03 10:48:31 · 359 阅读 · 0 评论