分词与词性标注--第一周学习总结07-28
词性标注与自然语言处理
相关概念
词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。 |
---|
词性标注可以由人工或特定算法完成,使用机器学习(machine learning)方法实现词性标注是自然语言处理(Natural Language Processing, NLP)的研究内容。常见的词性标注算法包括隐马尔可夫模型(Hidden Markov Model, HMM)、条件随机场(Conditional random fields, CRFs)等 。 |
词性标注主要被应用于文本挖掘(text mining)和NLP领域,是各类基于文本的机器学习任务,例如语义分析(semantic analysis)和指代消解(coreference resolution)的预处理步骤。 |
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。 |
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。 |
理论基础
词性标注在本质上是分类问题,将语料库中的单词按词性分类。一个词的词性由其在所属语言的含义、形态和语法功能决定。以汉语为例,汉语的词类系统有18个子类,包括7类体词,4类谓词、5类虚词、代词和感叹词。词类不是闭合集,而是有兼词现象,例如“制服”在作为“服装”和作为“动作”时会被归入不同的词类,因此词性标注与上下文有关。对词类的理论研究可以得到基于人工规则的词性标注方法,这类方法对句子的形态进行分析并按预先给定的规则赋予词类 。 |
---|
算法依赖
词性标注的机器学习算法主要为序列模型,包括HMM、最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM)、条件随机场(Conditional random fields,CRFs)等广义上的马尔可夫模型成员 ,以及以循环神经网络(Recurrent Neural Network, RNN)为代表的深度学习算法 。此外,一些机器学习的常规分类器,例如支持向量机(Support Vector Machine, SVM)在改进后也可用于词性标注 。 |
---|
应用领域
词性标注是文本数据的预处理环节之一,原始文本在NLP或文本挖掘应用中,首先通过字符分割(word segmentation)和字符嵌入(word embedding)被向量化,随后通过词性标注得到高阶层特征,并输入语法分析器执行语义分析(sentiment analysis)、指代消解等任务. |
---|
个人学习笔记
HMM(隐含马尔可夫模型)
分词与词性标注
相关词性编码表:
文章后的链接内含有.
自然语言处理
相关学习链接推荐
相关博客链接 NLP https://blog.csdn.net/h_jlwg6688/article/details/69374902
自然语言处理之词性标注集 https://blog.csdn.net/diyiday/article/details/87940222
B站学习视频:自然语言理解64集-宗成庆
https://www.bilibili.com/video/av37626570/?p=31
超星视频地址 https://ssvideo.superlib.com/cxvideo/play/pagesid=1586&d=77edee6d216507e5ece667cef95799ea&cid=236
现代汉语分词规范 [doc版下载] :道客巴巴PDF:http://www.doc88.com/p-9418283493381.html
sighan文本链接 http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.doc
以下是关于语料库链接的博客:
https://www.jianshu.com/p/30fa95e143bf
https://blog.csdn.net/qq_31550425/article/details/54983414
https://blog.csdn.net/baiyi_canggou/article/details/59108547
https://blog.csdn.net/hengwen1991/article/details/51750630