
中文信息处理
文章平均质量分 63
中文信息处理
<Running Snail>
奇点将至
展开
-
命名实体识别(NER)综述
本文是中文信息处理课程的期末考核大作业摘要命名实体识别是自然语言处理中的热点研究方向之一, 目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义; 然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能; 最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和常用工具,并给出了未来的研究建议 。1. 引言命名实体识别这个术语首次出现在MUC-6.原创 2021-07-12 21:48:08 · 36024 阅读 · 0 评论 -
中文信息处理(六)—— 神经语言模型与词表示(word2vec)
文章目录1. 基于神经网络语言模型1.1 几种语言模型对比1.2 神经网络语言模型 NNLM第一层(输入层)第二层(隐藏层)第三层(输出层)1.3 小结2. word2vec2.2.1 CBOW基于层次softmax的CBOW参数估计参数优化2.2.2 Skip-gram负采样2.2.3 gensim中的word2vec2.2.4 Word2vec 参数选择(经验性结论)1. 基于神经网络语言模型The Neural History of NLPTimeThe Neural History原创 2021-04-30 18:23:22 · 878 阅读 · 1 评论 -
中文信息处理(五)—— 文本分类与文本表示
文章目录1. 文本分类1.1 文本分类方法基于传统机器学习的文本分类1.2 文本分类的一般流程2. 基于向量空间模型(VSM)的文本表示方法2.1 one-hot表示2.2 VSM① 文档(Document)② 项(Term)2.3 特征选择常用方法① 文档频率DF② 信息增益IG③ 互信息(MI)④ χ2\chi^{2}χ2统计量2.4 权重计算① TF-IDF② scikit-learn预处理2.4 VSM的评价3. 基于矩阵的文本表示方法3.1 基于矩阵3.2 奇异值分解(SVD分解)3.3 评价原创 2021-04-22 10:09:22 · 3216 阅读 · 0 评论 -
中文信息处理(四)—— 神经网络基础
文章目录1. 神经网络与深度学习1.1 NLP的难点及在深度学习下的解决2. NLP中的深度学习2.1 核心2.2 神经网络模型的基本结构①输入层(嵌入层)②隐藏层③ 输出层NLP中的神经网络模型基本流程2.3 对于三层结构需要学习什么?1. 神经网络与深度学习与传统机器学习相比,深度学习不仅学习预测,同时还学习正确地表示数据,使其更有助于预测。1.1 NLP的难点及在深度学习下的解决离散性语言是离散化的,同时和含义是不相关的解决:表示学习组合性为了理解文本的意思,我们需要超原创 2021-04-22 08:28:03 · 698 阅读 · 0 评论 -
中文信息处理(三)—— 词性标注
目录1. 什么是词性标注?2. 词性标注的难点2.1 兼类现象2.1.1 英语词的兼类现象2.1.2 汉语词的兼类现象3. 词性标记集4. 基于HMM的词性标注4.1 什么是基于HMM的词性标注?4.1.1 HMM的提出4.1.2 数学角度4.1.3 Maekov模型4.2 HMM的形式化描述4.2.1 几个概率4.2.2 三大问题的解决方案4.3 参数估计4.4 维特比(viterbi)算法求最大概率4.4.1 Viterbi算法思想4.4.2 Viterbi变量的引入4.2.3 算法复杂度4.2.4 局原创 2021-04-20 09:45:08 · 2905 阅读 · 0 评论 -
中文信息处理(二)—— 分词
文章目录中文信息处理核心技术中文分词NLP任务层次一、为什么分词?二、分词为什么难?三、常见的分词系统四、几种分词方法1. 基于词表的分词1.1 主要思想1.2 最大匹配分词法关键问题1.3 最大匹配分词法的特点和缺点1.4 早期解决歧义的方法1.5 早期解决未登录词识别的方法2.基于统计语言模型的分词2.1 统计语言模型和Markov独立性假设2.2 工程细节问题2.3 零概率问题2.4 Zipf定律2.5 得到概率最大的分词词串(1)穷举法(效率低)(2)动态规划(引入累积概率变量与最大左邻词)2.6原创 2021-04-20 08:53:15 · 2227 阅读 · 0 评论 -
中文信息处理——初始概率,发射概率,转移概率
在训练集上统计初始概率,发射概率,转移概率估算所需要的参数def paramrter_t(lines): """ 此函数统计初始概率、转移概率 参数: lines: 按行读入的文本 """ # 统计词性标记的种类 tag_set = set() for line in lines: words = line.split() for word in words:原创 2021-04-04 18:44:20 · 2372 阅读 · 9 评论 -
中文信息处理——语料划分测试集与训练集
本系列所有文章都是基于人民日报语料处理 199801.txtimport randomimport codecsdef split(all_list, shuffle=False, ratio=0.8, ratio1=0.9): num = len(all_list) offset = int(num * ratio) if num == 0 or offset < 1: return [], all_list if shuffle: .原创 2021-03-24 11:30:22 · 1456 阅读 · 0 评论 -
中文信息处理——使用结巴分词系统
结巴分词项目地址:https://github.com/fxsjy/jieba/安装推荐通过 import jieba 来引用使用支持四种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。#原创 2021-03-24 11:17:53 · 485 阅读 · 0 评论 -
中文信息处理——分词评价程序(计算分词结果的准确率,召回率,F测度)
# 将词保存成集合形式def getWord(str): list = [] s = 0 for word in str.split("/"): e = s + len(word) list.append((s, e - 1)) s = e return set(list)# ori是原来的分词,pred是系统预测的输出def evaluate(ori,pred): predSize = len(getWord(原创 2021-03-17 12:11:56 · 3370 阅读 · 5 评论 -
正向最大匹配法分词
def fmm(sentence,file_name='wordSet'): """ 此函数实现正向最大匹配法分词 参数: sentence - 待分词的原句 file_name - 词频文件 返回: result - 已经分词的句子 """ # 将词频文件转换为字典dic f = open(file_name, "r") lines = f.原创 2021-03-17 12:07:34 · 670 阅读 · 0 评论 -
中文信息处理—已分词标注语料的抽取词表和文本还原
文章目录任务语料分析思路分析一、任务详解+代码抽取词表+统计词频1.删除多余文本2.统计词频二、形成原始文本任务针对人民日报语料,编写程序:(1)抽取词表(2)统计总词数、不同的词及其次数。ü 输出文件格式:n 第一行是语料库中的总词数,之后每行一个词及其次数,按照词频从小到大排序。如:n 总词数:10000n#韩国:169n#民族:571•……(3)去除语料中的分词和词性标记,形成未加工的语料(原始文本)语料分析人民日报语料1.语料已经被分词,并且做了词性标记,需要注原创 2021-03-13 22:13:32 · 3123 阅读 · 2 评论