《Mining Quality Phrases from Massive Text Corpora》论文学习笔记

目录

一、序言

二、研究背景

三、基础概念

四、研究意义

4.1 传统的短语挖掘方法

4.2 基于传统词频统计,及矫正前后短语挖掘效果

4.3 基于传统的词频统计结果

4.4 本文所采用的方法

五、实现步骤 

5.1 从原始语料库到高质量的短语和细分的语料库

​5.2 整体框架

5.3 短语质量评估

5.4 相关算法

5.4.1 Frequent Phrase Detection

5.4.2 Phrase Quality Estimation

5.4.3 Phrasal Segmentation 

5.4.4 Feedback as Segmentation Feature

六、相关实验

6.1 ClassPhrase I 候选集的模式挖掘(流行性)

6.2 ClassPhrase II 特征提取(一致性)

6.3 ClassPhrase II 特征提取(信息度)

6.4 ClassPhrase III 分类器

6.5 SegPhrase  短语分割

6.6 SegPhrase+  增强短语分割 

七、对比试验

7.1 实验环境

7.2 实验结果 

八、代码实现

8.1 Get Data

8.2 Raw Frequency

8.3 Quality Score

8.4 Concordance

8.5 Informativeness 

8.6 Train Classfier

九、总结和展望

十、参考内容


一、序言

       本文是发表于2015年的ACM SIGMOD文章,论文题目是《Mining Quality Phrases from Massive Text Corpora》,意为从海量文本体中挖掘优质短语,提出了一种结合短语分割和高质量短语评估相结合的方法。论文下载地址sigmod15_jliu.pdf (illinois.edu)

二、研究背景

       面对动态变化而且巨大的语料库,我们要如何利用更少的标签数据从中获取高质量的短语,本篇论文提出了一种结合短语分割和高质量短语评估相结合的方法。

       文本数据无处不在,在大数据应用中发挥着重要作用。然而,文本数据大多是非结构化的。将非结构化文本转换为结构化单元(例如,语义上有意义的短语)将大大减少语义歧义,并提高使用数据库技术操作此类数据的能力和效率。因此,质量短语挖掘是数据库领域的一个关键研究问题。本文提出了一种结合短语切分技术从文本语料库中提取高质量短语的新框架。这个框架只需要有限的训练,但是生成的短语的质量接近于人类的判断。此外,该方法具有可扩展性:计算时间和所需空间均随语料库大小的增加而线性增长。在大型文本语料库上的实验证明了该方法的有效性。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dr.sky_

作者逐个题目分析的噢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值