自然语言处理

自然语言的特点:词汇量大(关键词丰富)、非结构化、歧义性、容错性、易变性、简略性

一、简单知识介绍
1.自然语言处理的层次

1.语音,图像、文本

2.中文分词(词与词之间的边界)、词性标注(形容词、名词、动词等的标注)、命名体识别(专有名词,一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比))

3.信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。 这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取(RE)、命名实体识别(NER)、事件抽取(EE)。

4.文本分类与文本聚类:两者区别为,文本分类为事先确定好的类别进行分类,文本聚类为无监督学习,没有确定的类别数量。

5.句法分析:句法分析分为两类,一类是分析句子的主谓宾 定状补的句法结构。另一类是分析词汇间的依存关系,如并列 从属 比较 递进等

6.语义分析与篇章分析

…………等其他综合性任务

2.机器学习

机器学习步骤:

1.数据预处理

2.特征提取(特征工程)

3.模型建立

4.进行训练

算法分类:监督学习,无监督学习,半监督学习

二、词典分词

1.词典

分词,词性标注,和命名实体识别,有什么区别? - 知乎 (zhihu.com)

文本分类与文本聚类的区别_文本分类和文本聚类的区别_july_2的博客-CSDN博客

自然语言处理基础4 -- 句法分析 - 知乎 (zhihu.com)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
应用于神经网络机器翻译的无显式分割字符级解码器 A character-level decoder without explicit segmentation for neural machine translation (2016) 作者J. Chung et al. 探索语言建模的局限性 Exploring the limits of language modeling (2016) 作者R. Jozefowicz et al. 教机器阅读和理解 Teaching machines to read and comprehend (2015) 作者 K. Hermann et al. 摘要:教机器阅读自然语言文档仍然是一个难以应付的挑战。对于看到的文档内容,我们可以测试机器阅读系统回答相关问题的能力,但是到目前为止,对于这种类型的评估仍缺少大规模的训练和测试数据集。在这项工作中,我们定义了一种新的方法来解决这个瓶颈,并提供了大规模的监督阅读理解数据。 这允许我们开发一类基于attention的深层神经网络,凭借最少的语言结构的先验知识来学习阅读真实文档和回答复杂的问题 。 attended-based神经网络机器翻译有效策略 Effective approaches to attention-based neural machine translation (2015) 作者 M. Luong et al. 通过共同学习对齐和翻译实现神经机器翻译 Neural machine translation by jointly learning to align and translate (2014) 作者 D. Bahdanau et al. 利用神经网络进行序列到序列的学习 Sequence to sequence learning with neural networks (2014) 作者I. Sutskever et al. 用 RNN 编码——解码器学习短语表征,实现统计机器翻译 Learning phrase representations using RNN encoder-decoder for statistical machine translation (2014) 作者K. Cho et al. 一个为句子建模的卷积神经网络 A convolutional neural network for modelling sentences (2014) 作者 N. Kalchbrenner et al. 用于句子分类的卷积神经网络 Convolutional neural networks for sentence classification (2014) 作者Y. Kim Glove: 用于词表征的全局向量 Glove: Global vectors for word representation (2014) 作者 J. Pennington et al. 句子和文档的分布式表示 Distributed representations of sentences and documents (2014) 作者Q. Le and T. Mikolov 词、短语及其合成性的分布式表征 Distributed representations of words and phrases and their compositionality (2013) 作者T. Mikolov et al. 有效评估词在向量空间中的表征 Efficient estimation of word representations in vector space (2013) 作者T. Mikolov et al. 基于情感树库应用于情感组合研究的递归深度网络模型 Recursive deep models for semantic compositionality over a sentiment treebank (2013) 作者R. Socher et al.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值