(纯属为了记录自己学习的点滴过程,引用资料都附在参考列表)
1 基本概念
短语提取
在信息抽取领域,另一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,文档的简介生成等。
其颗粒度介于单词和句子之间,nlp一系列任务的颗粒度排序如下:
单词的颗粒度(分词、新词提取、关键词提取) < 短语的颗粒度(短语提取) < 句子的颗粒度(关键句提起) < 文章颗粒度(分类、聚类)
2 问题
短语的颗粒度(短语提取);
3 解决思路
利用互信息和左右信息熵,我们可以轻松地将新词提取算法拓展到短语提取。只需将新词提取时的字符替换为单词, 字符串替换为单词列表即可。为了得到单词,我们依然需要进行中文分词。 大多数时候, 停用词对短语含义表达帮助不大,所以通常在分词后过滤掉。
4 实现
from pyhanlp import *
""" 短语提取"&