nlp基础知识
文章平均质量分 86
nlp基础学习
哎呦-_-不错
读书太少而想太多
展开
-
nlp项目:搭建一个简单的问答系统
文章目录引言一、问答系统任务介绍1. 模块介绍2. 数据介绍3. 项目工具介绍二、搭建问答系统1. 文本读取2. 可视化分析3. 文本预处理3.1 无用符号过滤3.2 停用词过滤3.3 去掉低频率的词3.4 处理数字3.5 其他辅助函数3.6 文本预处理流程引言 下面展示对话系统框架:从框架方面,对话系统可以分为问答系统与多轮对话系统。本文着重讲解基于检索形式的问答系统。问答系统又包括结构化的问答系统与非结构化的问答系统。其中涉及的技术包括信息检索与语义匹配技术。涉及到的算法有TF-IDF算法、J原创 2021-07-11 23:10:55 · 3881 阅读 · 7 评论 -
nlp基础—12.LSTM-CRF模型介绍
文章目录引言一、模型介绍1. LSTM模型2. BI-LSTM(双向LSTM)模型3.CRF模型4. LSTM+CRF模型5. BiLSTM+CRF模型引言 本文讨论的是序列标注问题,所使用的模型是将两种现有的模型(LSTM+CRF)进行拼接,一种模型是双向LSTM模型,一种是CRF模型。下面介绍如何结合LSTM和CRF用于sequence tagging,并且对这些结合的效果进行测量。一、模型介绍 本篇文章涉及以下几种模型:LSTM,BI-LSTM,CRF,LSTM+CRF,BI-LSTM+C原创 2021-07-08 14:32:08 · 5272 阅读 · 2 评论 -
nlp基础—11.条件随机场模型(CRF)模型补充
文章目录引言一、概率图模型二、CRF模型1.条件随机场的矩阵形式2. HMM模型与CRF模型比较3. 条件随机场的三个基本问题3.1 概率计算问题3.2 预测问题(Inference)3.3 参数估计问题nlp基础—9.条件随机场模型(CRF算法)上一节主要依据《统计学习方法》这本书来学习条件随机场模型;这一节从原论文角度来学习条件随机场模型。引言 所谓线性链条件随机场就是逻辑回归的引申,相当于它的每一个时间步都是一个独立的逻辑回归模型,我们只需要将逻辑回归连起来就可以得到线性链的条件随机场。如原创 2021-07-08 00:07:11 · 259 阅读 · 2 评论 -
nlp基础—10.结巴分词的应用及底层原理剖析
文章目录引言一、HMM模型二、中文分词方法1.基于规则2. 基于知识理解3. 基于统计三、Jieba分词原理引言 结巴分词用到的核心算法模型是隐马尔可夫模型。一、HMM模型 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。我们下面举一个例子来理解HMM模型。如果想详细了解HMM模型的推导,可以参考:nlp基础—7.隐马尔可夫原创 2021-07-07 17:13:27 · 1849 阅读 · 0 评论 -
nlp基础—9.条件随机场模型(CRF算法)
文章目录引言一、概率无向图模型1. 概率无向图模型的定义2. 概率无向图模型的因子分解二、条件随机场的定义与形式1. 条件随机场的定义2. 条件随机场的参数化形式3. 条件随机场的简化形式4.条件随机场的矩阵形式三、条件随机场的三个基本问题1.概率计算问题2. 学习问题3. 预测问题引言 CRF算法的知识体系如下:本文首先介绍概率无向图模型,然后叙述条件随机场的定义与各种表示方法,最后介绍条件随机场的三个基本问题:概率计算问题、学习问题和预测问题。一、概率无向图模型1. 概率无向图模型的定义原创 2021-07-06 17:25:31 · 1394 阅读 · 1 评论 -
nlp基础—8.隐马尔科夫模型(HMM)分词实现
文章目录引言HMM分词实现理论部分传送门:nlp基础—7.隐马尔可夫模型(HMM算法)引言 隐马尔可夫模型相比于神经网络分词来说,速度比较快。早期,在自然语言处理中,曾用于分词。它的效果受训练集的影响比较大,它只能处理过在训练集中见过的组合,隐马尔可夫模型的泛化能力是比较弱的。HMM分词实现 训练集采用人民日报1998年中文标注语料库;代码部分如下:import timeimport numpy as npdef trainParameter(fileName):原创 2021-07-06 11:10:09 · 1981 阅读 · 3 评论 -
nlp基础—7.隐马尔可夫模型(HMM算法)
文章目录引言一、隐马尔可夫模型的定义1. 两个集合(序列)2. 两个基本假设3. 三个参数二、隐马尔科夫模型的三个基本问题1. 概率计算问题1.1 直接计算法1.2 前向算法1.3 后向算法2. HMM的学习问题2.1 监督学习算法2.2 非监督学习算法—Baum-Welch算法3. HMM的预测问题3.1 近似算法3.2 维特比算法引言 HMM算法的知识体系如下:可以总结为两个基本假设,两个集合(序列),三个参数,三个基本问题。一、隐马尔可夫模型的定义 隐马尔科夫模型是关于时序的概率模型,原创 2021-07-05 17:46:38 · 1466 阅读 · 0 评论 -
nlp基础—6.EM算法
文章目录一、EM算法二、EM算法的应用—高斯混合模型GMM1.高斯混合模型下的EM算法三、HMM算法1.隐马尔科夫模型的定义2. 隐马尔可夫模型的两个假设3.隐马尔科夫模型的三个参数4.隐马尔科夫模型的三个基本问题四、如何解决隐马尔科夫模型的三个基本问题?1.HMM概率计算问题1.1 直接计算法1.2 前向算法1.3 后向算法1.4 一些概率与期望值的计算2.HMM概率学习问题2.1 监督学习方法2.2 非监督方法一、EM算法 EM算法是一种迭代算法,EM算法的每次迭代由两步组成:E步,求期望;M步:原创 2021-07-01 23:11:41 · 540 阅读 · 1 评论 -
nlp基础—5.SkipGram, CBOW, Glove, MF,Gaussian Embedding, 语言模型以及各类Smooting技术
文章目录引言一、分布式词表示Counting Based与Prediction Based比较二、skip-Gram Modelskip-Gram Model与CBOW比较技术爆炸三、GloVe引言 这章主要讲以下几个部分:分布式词表示(Distributed Word Representation)skip-Gram, CBOW,Glove,MF语言模型一、分布式词表示 one-hot编码与词袋模型均不能很好的表达每个词的意思,one-hot表达方式有如下缺点:不能捕捉词之间的意思;原创 2021-06-25 11:11:13 · 606 阅读 · 1 评论 -
nlp基础—4.搜索引擎中关键技术讲解
搜索引擎中的关键是信息检索中的匹配与搜索算法。下面介绍在信息检索领域比较经典的匹配算法:lnverted lndex and Boolean Retrieval(倒排索引与布尔检索)正向索引是基于文档与词语的映射关系但是,我们更希望建立基于词语到文档的映射关系,这就是倒排索引。按照索引收集文档标记单词,将每个文档转换为一个单词列表进行语言预处理,生成规范化标记列表,其中索引项是:通过创建倒排索引来索引每个术语出现的文档Rank Retrieval 排名检索(tf-原创 2021-06-23 17:40:37 · 1432 阅读 · 1 评论 -
NLP基础—3.文本表示
文章目录引言一、词袋模型二、文本相似度计算三、词向量四、句子向量引言 文本表示的核心在于将文本表示成后续算法可以使用的特征向量。一、词袋模型二、文本相似度计算三、词向量四、句子向量...原创 2021-06-18 23:50:09 · 473 阅读 · 1 评论 -
NLP基础—2.文本预处理
文章目录一、分词1.最大匹配分词法2.基于语言模型的分词二、拼写纠错1. 如何解决错别字错误?三、停用词过滤四、词的标准化—normallzation1.Stemming—词干提取2. Lemmatization—词形还原一、分词 中文中常用的分词工具(Word Segmentation Tools)有JieBa分词,SnowNlp,HanLP。1.最大匹配分词法 最大匹配分词法是一种基于字符串匹配和规则的方法,这种方法依赖于词典的信息,对于词典以外的信息,认为没有见过。最大匹配分词法会优先考虑原创 2021-06-18 16:52:25 · 524 阅读 · 0 评论 -
NLP基础—1.NLP概述
文章目录引言一、NLP概述1.如何解决NLP中的一词多义问题?2.NLP的经典应用场景3.解决一个NLP问题的经典流程是什么?引言 AI工程师必备的核心技能:现实生活问题——>数学优化问题——>通过合适工具来解决 长期学习思路:learn:通过视频学习read:养成读文章的习惯code:完成项目,一定要自己完成,写几万行代码有本质提升write:养成写文章的习惯,梳理思路,进行自我总结discuss:遇到疑惑的点,要善于与别人讨论collaboration:鼓励项目原创 2021-06-18 10:01:36 · 866 阅读 · 1 评论