Python自然语言处理(十)------标注词汇与分类

最新推荐文章于 2022-06-02 14:17:36 发布

我住长江头

最新推荐文章于 2022-06-02 14:17:36 发布

阅读量1.4k

点赞数

分类专栏： Python自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xm_weng/article/details/96426339

版权

Python自然语言处理专栏收录该内容

10 篇文章 2 订阅

订阅专栏

词性标注：将词汇按照它们的词性分类并相应地对它们进行标注的过程。

标记集：用于特定任务标记的集合。

重点:利用标记和自动标注文本

词性标注器

词性标注器：处理一个词序列，为每个词附加一个词性标注。

例：

包括一些同形同音异义词（refuse,permit）

为什么要引入词汇类别（如名词）以及词性标记（NN）？

因为这些类别中很多都源于对文本中词语分布的浅层分析。

例：使用similar()方法找到某个词的所有上下文，然后找出所有出现在相同上下文中的其他词

搜索woman找到的是名词；搜索bought找到的大部分是动词；搜索over一般会找到介词；搜索the找到某些限定词。

一个标注器能够正确识别句子上下文中这些词的标记，也可以对未知词的认识过程建模（根据词根猜测词性）。

标注语料库

标注语料库：表示已标注的标识符

按照NLTK的规定，已标注的标识符使用一个由标识符和标记组成的元组来表示。

读取已标注的语料库

自动标注

词的标记依赖于这个词和它在句子中的上下文。

默认标注器

默认标注器：给每个单独的词分配标记。为了得到最好的效果，我们用最有可能的标记标注每个词。事实上，这种方法不太可行，正确率过低。

默认标注器可以帮助我们提高语言系统的稳定性。

例：

正则表达式标注器

正则表达式标注器：基于匹配模式分配标识给标识符。

查询标注器

查询标注器：找出100个最频繁的词，存储它们最有可能的标记，然后我们使用这个标记作为“查找标注器”的模型。

回退：先使用查找表，如果它不能指定标记就使用默认标注器。

例：

评估

使用黄金标准测试数据，这是一个手动标注并作为自动系统评估标准而被接受的语料库。当给定词猜测的标记与黄金标准标记相同，标注器被视为正确的。

如何确定一个词的分类？

形态学线索（例：-ness与形容词结合形成名词，如happy-->happiness）
句法线索（一个词可能出现的典型的上下文语境）
语义线索
新词

我住长江头

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python自然语言处理(十)------标注词汇与分类

词性标注：将词汇按照它们的词性分类并相应地对它们进行标注的过程。标记集：用于特定任务标记的集合。重点:利用标记和自动标注文本词性标注器词性标注器：处理一个词序列，为每个词附加一个词性标注。例：包括一些同形同音异义词（refuse,permit）为什么要引入词汇类别（如名词）以及词性标记（NN）？因为这些类别中很多都源于对文本中词语分布的浅层分析。例：使...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。