POS Tagging 和Chunking （学习笔记）

最新推荐文章于 2025-05-08 09:19:43 发布

-Ausen

最新推荐文章于 2025-05-08 09:19:43 发布

阅读量355

点赞数

分类专栏：自然语言处理文章标签： NLP nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43971116/article/details/105555024

版权

自然语言处理专栏收录该内容

5 篇文章

订阅专栏

来源：NLP中的 POS Tagging 和Chunking_Sirow的博客-CSDN博客_pos tagging

词性标注（POS-Tagging）

这里的例子主要针对英文，词性标注的作用便是给输入的句子的每个单词分割开然后去除功能词，再给每一个单词标注他们的词性，词性有八个主要组成部分：名词、代词、形容词、动词、副词、介词、连词和感叹词。

例子:

Noun (N)- Daniel, London, table, dog, teacher, pen, city, happiness, hope
Verb (V)- go, speak, run, eat, play, live, walk, have, like, are, is
Adjective(ADJ)- big, happy, green, young, fun, crazy, three
Adverb(ADV)- slowly, quietly, very, always, never, too, well, tomorrow
Preposition §- at, on, in, from, with, near, between, about, under
Conjunction (CON)- and, or, but, because, so, yet, unless, since, if
Pronoun(PRO)- I, you, we, they, he, she, it, me, us, them, him, her, this
Interjection (INT)- Ouch! Wow! Great! Help! Oh! Hey! Hi!

例如下面例子中，输入 She sells seashells on the seashore. 则输出每个词对应的词性。

在python中有最流行的标签集，Penn Treebank标签集。大多数已经训练过的英文标签都是在这个标签集上训练的。

组块分析（Chunking）

组块分析就是从非结构化的文本中提取短语的过程。相对于POS-Tagging来说，POS-Tagging返回了解析树的最底层，就是一个个单词。但是有时候你需要的是几个单词构成的名词短语，而非个个单词，在这种情况下，您可以使用chunker获取您需要的信息，而不是浪费时间为句子生成完整的解析树。举个例子(中文)：与其要单个字，不如要一个词，例如，将“南非”之类的短语作为一个单独的词，而不是分别拆成“南”和“非”去理解。

组块分析是可以接着词性标注工作继续完成，它使用词性标注作为输入，并提供分析好的组块做为输出。与词性标注的标签类似，它也有一组标准的组块标签，如名词短语（np）、动词短语（vp）等，当你想从诸如位置，人名等文本中提取信息时，分块是非常重要的。在NLP中，称为命名实体识别，举个例子‘李雷的杯子’是分块分出的一个短语，而抽取’李雷’这个人名，就是命名体识别。所以，组块分析也是命名体识别的基础。

（将句子生成如下面一样的树，既是在树中的每一层代表着不同的层次语义，然后可以通过语句输出）

总结：

输入句子 -> 将每个词分割开 -> 去除停用词如<CLS> -> 进行词性标注 -> 进行组块分析 -> 命名实体识别

博客等级

码龄6年

42
原创

14
点赞

32
收藏

7
粉丝

关注

私信

热门文章

分类专栏

最新评论

tomcat搭建简单文件服务器
CSDN-Ada助手: 非常感谢您的分享，这篇博客详细介绍了tomcat搭建简单文件服务器的过程，让我们学到了很多。我认为您可以继续写一篇关于如何使用nginx搭建更高效的文件服务器的博客，这对于需要处理大量文件访问的用户来说非常有用。相信您的分享会吸引更多的读者前来阅读。期待您的下一篇技术文章。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
对TESSERACT: Eliminating Experimental Bias in Malware Classification across Space and Time简单理解
super尚: 博主你好！这篇论文的数据集请问怎么下载呢？我没有权限从他们官网下载
对 Detection of Malicious Code Variants Based on Deep Learning 的简单理解
pancy888: Tracking Learning Detection Code是关于这篇文章的吗
对 Detection of Malicious Code Variants Based on Deep Learning 的简单理解
pancy888: 这个最后的BAT算法部分不是很理解，是崔志华（音）那篇文章吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。