NLP
文章平均质量分 93
refresh&grow
这个作者很懒,什么都没留下…
展开
-
短文本分类概述
Table of Contents定义特点及难点分类方法(转 有修改)-传统文本分类方法-深度学习文本分类方法评价指标定义短文本通常是指长度比较短,一般不超过160个字符的文本形式,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。短文本分类任务的目的是自动对用户输入的短文本进行处理,得到有价值的输出。在chatbot的构建过程中,对用户的意图进...原创 2018-07-17 00:57:52 · 16128 阅读 · 0 评论 -
问题生成(QG)与答案生成(QA)
继续 QG,梳理一下 MSRA 其他 3 篇关于 QG 的 paper:Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension Question Answering and Question Generation as Dual Tasks A Joint Model for Question ...转载 2018-09-23 00:00:33 · 7216 阅读 · 0 评论 -
多轮对话之对话管理(Dialog Management)
Table of ContentsDialog ManagementInitiativeBasic conceptsChallengesStructure-based ApproachesKey Pharse Reactive ApproachesTrees and FSM-based ApproachesPrinciple-based ApproachesFr...转载 2018-09-22 23:52:35 · 7434 阅读 · 0 评论 -
文本向量化
Table of Contents概述word2vecNNLMC&WCBOW and Skip-gramdoc2vec/str2vec概述文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化就是将文本表示成一系列能够表达文本语义的向量,是文本表示的一种重要方式。目前对文本向量化大部分的研究都是通过词向量化实现的,...原创 2018-09-02 15:50:35 · 12992 阅读 · 0 评论 -
词性标注与命名实体识别
Table of Contents词性标注简介词性标注规范jieba命名实体识别简介基于条件随机场的命名实体识别词性标注简介词性是词汇基本的语法属性,也称为词类。词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。整体上看在中...原创 2018-08-29 23:56:31 · 8530 阅读 · 0 评论 -
中文分词技术
Table of Contents简介规则分词正向最大匹配法(Maximum Match Method, MM法)逆向最大匹配法(Reverse Maximum Match Method, RMM法)双向最大匹配法(Bi-direction Matching Method, BM法)统计分词HMMCRF混合分词(规则+统计)jieba三种分词模式简介...原创 2018-08-29 00:01:15 · 2135 阅读 · 0 评论 -
关键词提取算法
Table of Contents概述TF-IDF算法传统算法加权变种TextRank算法PageRankTextRankLSA/LSI/LDA算法LSA/LSILDA概述关键词是代表文章重要内容多一组词,对文本聚类、分类、自动摘要等起重要的作用。现实中大量文本不包含关键词,如果我们可以准确的将所有文档都用几个简单的关键词描述出来,就能使人们便捷地浏...原创 2018-08-31 00:38:16 · 10771 阅读 · 0 评论 -
启发式对话中的知识管理
本文为EDU公开课[启发式对话中的知识管理--思必驰 葛付江]学习笔记,欢迎参考指正。Table of Contents对话系统的架构对话系统流程对话系统架构机器人评价指标及现状启发式对话系统对话系统中的知识管理知识在对话意图理解中的作用知识在对话管理中的作用总结对话系统的架构对话系统和问答系统的区别是有上下文场景,需要控制对话状态来完整理解用户意图...原创 2018-07-23 00:29:21 · 1028 阅读 · 0 评论 -
2017年深度学习NLP重大进展与趋势
重大进展DL在很多常见的 NLP 任务中取得了顶尖的结果,如命名实体识别(NER)、词性标注(POS tagging)或情感分析,在这些任务中神经网络模型优于传统方法。而机器翻译的进步或许是最显著的。从训练 word2vec 到使用预训练模型词嵌入是用于自然语言处理(NLP)的最广为人知的深度学习(DL)技术。它遵循由 Harris(1954)提出的分布式假设,根据该假设,具有相似含义...转载 2018-07-15 13:44:45 · 991 阅读 · 0 评论 -
NLP待解决的问题及挑战
自然语言处理待解决的问题多模态的融合其实我们人是不怎么区分图片、文字、声音,因为到脑海中都会变成表述。这样类比到神经网络上,我们也可以对不同类型的信息源同等对待,同等建模,得到一个融合的信息,再基于这种信息进行编码解码,然后再生成其他媒介的东西,或者混合媒介的东西。现在「读图」这件事更多的是图像领域的科研人员在做,NLP 领域的人很少涉足,NLP 研究人员一般是你读出来什么,表示成自然...转载 2018-07-15 13:42:44 · 2458 阅读 · 0 评论 -
2018 全球人工智能与机器人峰会(CCF-GAIR)--探讨自然语言处理的商业落地
本文对参加圆桌会议嘉宾的观点进行了整理。云孚科技--专注于为企业提供自然语言处理技术解决方案。创始人兼 CEO 张文斌:商业化的本质首先一定要盈利,其次要做到规模化盈利。人工智能这一块的创业公司要盈利,大方向有两个,做 toC 直接面对消费者,和做 toB 面对企业。云孚科技选择了 toB,周期相对可控,比较容易把营收做起来。规模化盈利又有两个方向,创业公司选择最多的是深入行业做垂...转载 2018-07-19 00:11:36 · 643 阅读 · 0 评论 -
文本表示简介
Table of Contents基于向量空间模型的方法基于主题模型的方法基于神经网络的方法基于词向量合成的模型基于RNN/CNN的模型基于注意力机制的模型文本分类是自然语言处理中研究最为广泛的任务之一,通过构建模型实现对文本内容进行自动分类,有很多应用场景,比如新闻文章主题分类,产品评论情感分类,检索中用户查询的意图分类等等。文本分类的大致流程:文本预处理,抽取文本特...转载 2018-10-08 22:42:50 · 3207 阅读 · 0 评论