NLP基础
主要范畴
- 文本朗读(text to speech)
- 语音合成(speech synthesis)
- 语音识别(speech recognition)
- 中文自动分词(Chinese word segmentation)
- 词性标注(part of speech tagging)
- 句法分析(parsing)
- 自然语言生成(natural language generation)
研究难点
- 单词的边界界定
- 词义消歧
- 不规范的输入
- 句法的模糊性
- 语言行为与计划
NLP涉及知识
词处理:
- 分词
- 词性标注
- 实体识别
- 词义消歧
语句处理:
- 句法分析
- 语义分析
- 机器翻译
- 语音合成
模型:
- N-Gram统计模型
- 马尔可夫模型
- 隐马尔可夫模型
语料及词性标注
语料:语言材料
词性标注:给每个词或者词语打词类标签:形容词、动词、名词
方法:
- 基于规则的词性标注
- 基于隐马尔可夫模型HMM的词性标注
- 基于转移的词性标注
- 基于转移与隐马尔可夫模型相结合的词性标注
python:
- nltk:英文分词库
- jieba:中文分词库
分词
把句子变成词
难点:
- 分词标准
- 切分歧异(分词细粒度不同、真正存在歧义的句子、交集型的歧义)
- 新词
算法:
-
基于词典的分词算法
-
- 正向最大匹配
- 你想最大匹配法
- 双向匹配分词
- 全切分路径选择
-
基于统计的分词算法
-
- HMM,隐马尔可夫模型
- CRF,条件随机场
- 深度学习
TF:term frequency。词频:衡量一个term在文档中出现的有多频繁
T F ( t ) = ( t 出 现 在 文 档 中 的 次 数 ) / ( 文 档 中 t e r m 的 总 数 ) TF(t)=(t出现在文档中的次数)/(文档中term的总数) TF(t)=(t出现在文档中的次数)/(文档中term的总数)
IDF:Inverse document frequency。逆文本频率
I D F ( t ) = log _ e ( 文 档 总 数 / 含 有 t 的 文 档 总 数 ) IDF(t)=\log\_e(文档总数/含有t的文档总数) IDF(t)=log_e(文档总数/含有t的文档总数)