《Mining Quality Phrases from Massive Text Corpora》论文学习笔记

最新推荐文章于 2023-12-10 10:25:36 发布

Dr.sky_

最新推荐文章于 2023-12-10 10:25:36 发布

阅读量1.1k

点赞数 2

分类专栏： # NLP 文章标签：机器学习算法 python 自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43734080/article/details/122278845

版权

NLP 专栏收录该内容

18 篇文章 42 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

目录

二、研究背景

三、基础概念

四、研究意义

4.1 传统的短语挖掘方法

4.2 基于传统词频统计，及矫正前后短语挖掘效果

4.3 基于传统的词频统计结果

4.4 本文所采用的方法

五、实现步骤

5.1 从原始语料库到高质量的短语和细分的语料库

5.2 整体框架

5.3 短语质量评估

5.4 相关算法

5.4.1 Frequent Phrase Detection

5.4.2 Phrase Quality Estimation

5.4.3 Phrasal Segmentation

5.4.4 Feedback as Segmentation Feature

六、相关实验

6.1 ClassPhrase I 候选集的模式挖掘（流行性）

6.2 ClassPhrase II 特征提取（一致性）

6.3 ClassPhrase II 特征提取（信息度）

6.4 ClassPhrase III 分类器

6.5 SegPhrase 短语分割

6.6 SegPhrase+ 增强短语分割

七、对比试验

7.1 实验环境

7.2 实验结果

八、代码实现

8.2 Raw Frequency

8.3 Quality Score

8.4 Concordance

8.5 Informativeness

8.6 Train Classfier

九、总结和展望

十、参考内容

一、序言

本文是发表于2015年的ACM SIGMOD文章，论文题目是《Mining Quality Phrases from Massive Text Corpora》，意为从海量文本体中挖掘优质短语，提出了一种结合短语分割和高质量短语评估相结合的方法。论文下载地址sigmod15_jliu.pdf (illinois.edu)

二、研究背景

面对动态变化而且巨大的语料库，我们要如何利用更少的标签数据从中获取高质量的短语，本篇论文提出了一种结合短语分割和高质量短语评估相结合的方法。

文本数据无处不在，在大数据应用中发挥着重要作用。然而，文本数据大多是非结构化的。将非结构化文本转换为结构化单元(例如，语义上有意义的短语)将大大减少语义歧义，并提高使用数据库技术操作此类数据的能力和效率。因此，质量短语挖掘是数据库领域的一个关键研究问题。本文提出了一种结合短语切分技术从文本语料库中提取高质量短语的新框架。这个框架只需要有限的训练，但是生成的短语的质量接近于人类的判断。此外，该方法具有可扩展性：计算时间和所需空间均随语料库大小的增加而线性增长。在大型文本语料库上的实验证明了该方法的有效性。

了解本专栏

超级会员免费看

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Mining Quality Phrases from Massive Text Corpora》论文学习笔记

简介文本数据无处不在，在大数据应用中发挥着重要作用。然而，文本数据大多是非结构化的。将非结构化文本转换为结构化单元(例如，语义上有意义的短语)将大大减少语义歧义，并提高使用数据库技术操作此类数据的能力和效率。因此，质量短语挖掘是数据库领域的一个关键研究问题。本文提出了一种结合短语切分技术从文本语料库中提取高质量短语的新框架。这个框架只需要有限的训练，但是生成的短语的质量接近于人类的判断。此外，该方法具有可扩展性：计算时间和所需空间均随语料库大小的增加而线性增长。在大型文本语料库上的实验证明了该方法的有效
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Dr.sky_ 作者逐个题目分析的噢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。