自然语言复习

1、NLP的应用场景
智能客服,机器翻译,情感分析,意图识别,信息抽取
2、NLP的主要任务
1.文本分类:新闻分类,垃圾邮件识别,情感分析,意图识别
2.文本匹配:query-doc搜索,商品检索等
3.序列标注:分词,词性标注,命名实体识别
4.文本生成:机器翻译(文本到文本),自动撰写(数据到文本),看图说话(图像到文本)
3、N元语法模型
N-Gram模型是一种基于统计语言模型的算法
作用:计算句子出现的概率
4、利用N元语法模型计算句子出现的概率
如Bi-Gram:语料库中含有:今天天气晴朗,今天是个好日子,天气阴等三个句子

计算P(今|)= c(今|)/c()= c(今)/c()
为起始符,语料库共三个句子,三个起始符,所以c()=3
今 在库中出现了两次,所以c(今)=2,即P(今|)=2/3
5、区分基于统计的模型和基于深度学习的模型
基于统计的模型:通过统计计算概率
特点:参数量大,不擅长上下文建模
模型有:TFIDF HMM MEMM CRF
基于深度学习模型:通过映射函数计算概率
特点:参数量可控,擅长上下文建模,效果较好
模型有:Word2vec fasttext TextRNN TextCNN Elmo
6、区分分词、词性标注、命名实体识别和依存句法分析的概念
分词:将输入的汉字串切成词串
词性标注:确定每个词的词性标并加以标注
命名实体识别:确定文本中具有特定意义或者指代性强的实体
依存句法分析:依存句法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。
7、one-hot编码的定义及优缺点
1、定义:one-hot即独立热词,词语被表示成一个维度为词表大小的向量,这个向量中只有一个维度是1其他位置都是0。
2、优点:能够处理离散特征值;增加了特征的维度;让离散型特征之间的距离计算更加合理。
3、缺点:如果单词之间独立,无法体现单词与单词远近程度,就会丢失相关语义信息;每个单词的one-hot编码维度都是整个词汇表的大小,维度非常巨大,编码稀疏,会使得计算代价变大;如果原本标签编码有序,那么one-hot编码后会丢失顺序信息
8、word2vec编码的定义及优缺点(对比one-hot)
定义:是一种可以进行高效率词嵌套学习的预测模型
优点:通用性很强,可以用在各种NLP任务中
缺点:无法解决多义词的问题;Word2vec是一种静态的方式,无法针对特定任务做动态优化
9、文本分类任务的功能及应用场景
文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中。
应用场景:
垃圾邮件的判定:是否为垃圾邮件
根据标题为图文视频打标签:政治、体育、娱乐等
根据用户阅读内容建立画像标签:教育、医疗等
电商商品评论分析等等类似的应用:消极、积极
自动问答系统中的问句分类
10、TF-IDF的定义及计算TF-IDF值
TF(term frequency)︰词频,某个词在文档中出现的次数,TF越大一般来说越重要
DF (document frequency)︰文档频率,某个词在所有文档中出现的文档数,DF越大表示这词越有可能是常用词,自然也越不重要
IDF (inverse document frequency):逆文档频率,它是DF 的倒数,IDF越大表示该词越少见,也越重要
TF-IDF : TF * IDF,综合了TF和IDF两个因素来平衡词的重要性
计算:

11、数据预处理有哪些操作
数据清洗( 排除非关键信息)、分词处理( Stanford NLP分词、jieba分词、中科院NLPIR汉语分词等)、特征构造(词袋模型、N-gram模型)、特征降维( L1惩罚项的模型、主成分分析法(PCA)、线性判别分析(LDA))与选择(Filter过滤法、Wrapper(包装法)、Embedded(嵌入法)、深度学习方法)
12、未登录词
未登录词即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等
13、Seq2Seq模型
Seq2Seq 是一种循环神经网络的变种,包括编码器 (Encoder) 和解码器 (Decoder) 两部分。
Seq2Seq 是自然语言处理中的一种重要模型,可以用于机器翻译、对话系统、自动文摘。
14、编码器、解码器的功能
编码器用来分析输入序列,解码器用来生成输出序列。
15、信息抽取的定义
从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术
16、机器翻译的概念
机器翻译就是把一种语言翻译成另外一种语言
17、基于机器学习的文本分类
机器学习只能对词向量进行简单的平均或者加权平均
模型主要有:逻辑回归、朴素贝叶斯、KNN方法、决策树、支持向量机、GBDT/XGBOOST

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值