基于深度学习的自然语言处理——NLP特征的案例分析
NLP特征的案例分析
文本分类:语言识别
- 任务:给定一个文档或句子,希望将其归类为一组特定的语言
- 核心特征:每个可能的二阶字母对
文本分类:主题分类
- 任务:对于给定的文档,将其归类为一组预定义的主题。
- 单位:词
- 特征:文档词袋
文本分类:作者归属
- 任务:对于给定文本,推断作者身份或文本作者的一些特征。
- 特征:
- 应侧重于文本属性,专注于词性标记和功能词。
- 功能词与代词词袋、词性词袋、词性的二元文法、三元文法、四元文法词袋、功能词的密度、删除内容词后的功能词二元文法词袋、连贯功能词之间的距离分布。
上下文中的单词:词性标注
- 任务:给定一个句子,对其中每个单词分配正确词性
- 通用树库项目中的词性集合
- 信息来源
- 内部线索(单词本身):词的识别、前缀、后缀、正字词的形状、单词在大语料库中的频率
- 外部线索(上下文):上下文单词的标识、前缀、后缀以及前面单词的词性预测结果
- 核心特征样例
- 单词、2字母后缀、3字母后缀、2字母前缀、3字母前缀、单词是否大写、是否包含连字符、是否包含数字、
- 位于