Python自然语言处理笔记(六)------条件频率分布

最新推荐文章于 2022-12-21 11:58:31 发布

我住长江头

最新推荐文章于 2022-12-21 11:58:31 发布

阅读量563

点赞数

分类专栏： Python自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xm_weng/article/details/96306087

版权

Python自然语言处理专栏收录该内容

10 篇文章 2 订阅

订阅专栏

一. 条件频率分布

条件频率分布：是频率分布的集合，每个频率分布都有一个不同的“条件”，这个条件通常是文本的类别。

条件频率分布需要给每个事件关联一个条件，所以不是处理一个词序列，而是要处理一系列配对序列。每对的形式是：（条件，事件)

1. 按文体计数词汇

FreqDist()以一个简单的链表作为输入，ConditionalFreqDist()以一个配对链表作为输入。

对于每个文体，遍历文体中的每个词以产生文体和词的配对（配对链表）

使用此配对链表创建一个ConditionalFreqDist，并将它保存在一个变量cfd中。可以输入变量的名称来检查它，并确认它有两个条件。访问者两个条件，它们每一个都只有一个频率分布。

2. 绘制分布图和分布表

2.1 绘制分布图 cfd.plot()

例子：绘制在特定演讲中出现ameirca或citizen的次数。

2.2 绘制分布表 cfd.tabulate()

例子：查看英语和德语中长度少于10个字符的词汇个数。

注：在plot()和tabulate()方法中，可以使用conditions=参数来指定显示哪些条件，否则所有条件都会被显示。可以使用samples=参数来限制要显示的样本。

2.3 使用双连词生成随机文本

bigrams()函数能接受一个词汇链表，并建立起一个连续的词对链表。

例：产生随机文本：此函数获得了《创世纪文本中所有的双连词，然后构造一个条件频率分布来记录哪些词汇最有可能会跟在给定词的后面。generate_model()函数使用这些数据和种子词来产生随机文本。

注：条件频率分布是一个对许多NLP任务都有用的数据结构。

我住长江头

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python自然语言处理笔记(六)------条件频率分布

一. 条件频率分布条件频率分布：是频率分布的集合，每个频率分布都有一个不同的“条件”，这个条件通常是文本的类别。条件频率分布需要给每个事件关联一个条件，所以不是处理一个词序列，而是要处理一系列配对序列。每对的形式是：（条件，事件)1. 按文体计数词汇FreqDist()以一个简单的链表作为输入，ConditionalFreqDist()以一个配对链表作为输入。对于每个文体...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。