NLP基础

本文概述了自然语言处理(NLP)的主要范畴,包括文本朗读、语音识别、词性标注等,并探讨了研究难点如词义消歧、不规范输入等。介绍了词处理和语句处理的各种技术,如基于规则和统计的分词方法,以及词性标注的HMM模型。同时,提到了NLP涉及的模型,如N-Gram、马尔可夫模型和深度学习模型。此外,讨论了TF-IDF在文本特征提取中的应用,并简述了聊天机器人的检索类和生成式方法。
摘要由CSDN通过智能技术生成

NLP基础

主要范畴

  • 文本朗读(text to speech)
  • 语音合成(speech synthesis)
  • 语音识别(speech recognition)
  • 中文自动分词(Chinese word segmentation)
  • 词性标注(part of speech tagging)
  • 句法分析(parsing)
  • 自然语言生成(natural language generation)
研究难点
  • 单词的边界界定
  • 词义消歧
  • 不规范的输入
  • 句法的模糊性
  • 语言行为与计划

NLP涉及知识

词处理:

  • 分词
  • 词性标注
  • 实体识别
  • 词义消歧

语句处理:

  • 句法分析
  • 语义分析
  • 机器翻译
  • 语音合成

模型:

  • N-Gram统计模型
  • 马尔可夫模型
  • 隐马尔可夫模型

语料及词性标注

语料:语言材料

词性标注:给每个词或者词语打词类标签:形容词、动词、名词

方法:

  • 基于规则的词性标注
  • 基于隐马尔可夫模型HMM的词性标注
  • 基于转移的词性标注
  • 基于转移与隐马尔可夫模型相结合的词性标注

python:

  • nltk:英文分词库
  • jieba:中文分词库
分词

把句子变成词

难点:

  • 分词标准
  • 切分歧异(分词细粒度不同、真正存在歧义的句子、交集型的歧义)
  • 新词

算法:

  • 基于词典的分词算法

    • 正向最大匹配
    • 你想最大匹配法
    • 双向匹配分词
    • 全切分路径选择
  • 基于统计的分词算法

    • HMM,隐马尔可夫模型
    • CRF,条件随机场
    • 深度学习

TF:term frequency。词频:衡量一个term在文档中出现的有多频繁

T F ( t ) = ( t 出 现 在 文 档 中 的 次 数 ) / ( 文 档 中 t e r m 的 总 数 ) TF(t)=(t出现在文档中的次数)/(文档中term的总数) TF(t)=(t)/(term)

IDF:Inverse document frequency。逆文本频率

I D F ( t ) = log ⁡ _ e ( 文 档 总 数 / 含 有 t 的 文 档 总 数 ) IDF(t)=\log\_e(文档总数/含有t的文档总数) IDF(t)=log_e(/t)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值