目录
5.4.1 Frequent Phrase Detection
5.4.2 Phrase Quality Estimation
5.4.4 Feedback as Segmentation Feature
6.1 ClassPhrase I 候选集的模式挖掘(流行性)
一、序言
本文是发表于2015年的ACM SIGMOD文章,论文题目是《Mining Quality Phrases from Massive Text Corpora》,意为从海量文本体中挖掘优质短语,提出了一种结合短语分割和高质量短语评估相结合的方法。论文下载地址sigmod15_jliu.pdf (illinois.edu)
二、研究背景
面对动态变化而且巨大的语料库,我们要如何利用更少的标签数据从中获取高质量的短语,本篇论文提出了一种结合短语分割和高质量短语评估相结合的方法。
文本数据无处不在,在大数据应用中发挥着重要作用。然而,文本数据大多是非结构化的。将非结构化文本转换为结构化单元(例如,语义上有意义的短语)将大大减少语义歧义,并提高使用数据库技术操作此类数据的能力和效率。因此,质量短语挖掘是数据库领域的一个关键研究问题。本文提出了一种结合短语切分技术从文本语料库中提取高质量短语的新框架。这个框架只需要有限的训练,但是生成的短语的质量接近于人类的判断。此外,该方法具有可扩展性:计算时间和所需空间均随语料库大小的增加而线性增长。在大型文本语料库上的实验证明了该方法的有效性。