Python与自然语言处理
你的名字5686
这个作者很懒,什么都没留下…
展开
-
Python与自然语言处理——中文分词(二)
Python与自然语言处理——中文分词中文分词技术(二)Jieba安装与介绍Jieba的三种分词模式高频词提取数据与代码参考文献中文分词技术(二)前面介绍几种基本常用的中文分词技术,下面我们介绍一个中文分词的工具。Jieba安装与介绍介绍结合了基于规则和基于统计两种方法;是一个开源框架,提供了许多在分词之上的算法;安装pip install jiebaJieba的...原创 2019-03-29 19:24:19 · 2344 阅读 · 0 评论 -
Python与自然语言处理——词性标注与命名实体识别(一)
Python与自然语言处理——词性标注与命名实体识别词性标注与命名实体识别(一)词性标注词性标注简介词性标注规范Jieba的词性标注命名实体识别(NER)命名实体识别简介基于随机条件场的命名实体识别词性标注与命名实体识别(一)词性标注词性标注简介词性标注是在给定句子中判定每个词的语法范畴,确定其词性并标注的过程。中文特点:一个词的词性是不固定的但从整体上看,一个词常用的只有1、2...原创 2019-03-30 16:55:11 · 5397 阅读 · 0 评论 -
Python与自然语言处理——句法分析
Python与自然语言处理——句法分析句法分析句法分析简介数据集与评测方法数据集评测方法句法分析的常用方法句法分析句法分析是机器翻译的核心数据结构,是对语言进行深层次理解的基石。句法分析简介主要任务识别句子中所包含的句法成分以及这些成分之间的关系,一般以句法树来表示句法分析的结果。主要难点歧义搜索空间句法分析分类完全句法分析:企图获取整个句子的句法结构部分句法分析:...原创 2019-04-05 23:51:35 · 6949 阅读 · 0 评论 -
Python与自然语言处理——文本向量化(一)
Python与自然语言处理——文本向量化文本向量化(一)文本向量化概述向量化算法word2vec词袋模型神经网络语言模型(NNLM)C&W模型文本向量化(一)文本向量化概述文本向量化是将文本表示成一系列能够表达文本语义的向量。主要技术word2vecdoc2vecstr2vec向量化算法word2vec词袋模型最早的以词语为基本处理单元的文本向量化方法方法...原创 2019-04-07 17:52:32 · 9260 阅读 · 4 评论 -
Python与自然语言处理——关键词提取算法(一)
Python与自然语言处理——关键词提取算法关键词提取算法TF/IDF算法TextRank算法LSA/LSI/LDA算法LSA/LSI算法关键词提取算法大体概况:有监督:主要通过分类的方式进行,通过构建一个丰富完善的词表,判断每个文档与词表中每个词的匹配度,以类似打标签的形式达到关键词提取的效果。无监督:受青睐的主流TF/IDF算法一种基于统计的计算方法,常用于评估在一个文档集中...原创 2019-04-02 15:10:13 · 4040 阅读 · 0 评论 -
Python与自然语言处理——关键词提取算法(二)
Python与自然语言处理——关键词提取算法关键词提取算法(二)算法流程训练一个关键词提取算法对新文档进行关键词提取具体实现引入相关库数据预处理定义停用词表的加载方法定义分词方法定义干扰词过滤方法加载数据集输出top关键词算法实现TF-IDF主题模型对各方法进行封装实验及结果所有数据及代码参考文献关键词提取算法(二)前面我们已经介绍了关键词提取算法的一些理论知识,这里我们主要看一些简单的示例。...原创 2019-04-02 17:45:38 · 2077 阅读 · 1 评论 -
Python与自然语言处理——中文分词(一)
Python与自然语言处理——中文分词中文分词技术规则分词正向最大匹配法(MM法)逆向最大匹配法(RMM法)双向最大匹配法统计分词语言模型HMM模型中文分词技术中文分词问题主要来源于:在汉语中,句子是以字为单位的,但是语义理解仍然是需要以词为单位,所以也就存在了中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)规则分词基于规则的分词是一种机械分词,主要依赖于维...原创 2019-03-29 11:40:19 · 2152 阅读 · 0 评论