核心技术与算法
XB_please
谢谢
展开
-
核心技术与算法学习笔记:关键词提取算法
目录 关键词提取技术介绍概述 关键词提取算法TF-IDF TextRank算法 LSA/LSI/LDA算法 实战提取文本关键词 1. 关键词提取技术概述 有监督 主要通过分类的方式进行,通过构建一个丰富和完善的词表,然后通过判断每个文档与词表中每个文档与词表中每个词的匹配程度,以类似打标签的方式,从而达到关键词提取的效果。能够获得较高精度,但是需要大批量的标注数据,人工成本较高; 无监督...原创 2019-12-12 16:05:58 · 944 阅读 · 0 评论 -
核心技术与算法学习笔记:词性标注与命名实体识别(日期识别)
目录 1.词性标注 2.Jieba 分词中的词性标注 3.HMM 4.命名实体识别 5.条件随机场 1.词性标注 词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。 中文领域中尚无统一的标注标准,较为主流的主要为北大的词性标注集和宾州词性标注集两大类。 两类标注方式各有千秋 一般我们任选一种方式即可。 本书中采用北大词性标注集作为标准,其部分标注的词性如表 4-1 所示。 ...原创 2019-12-04 15:27:55 · 1095 阅读 · 0 评论 -
核心技术与算法学习笔记:中文分词技术
目录: 1.常用分词(包括规则分词 、 统计分词 以及混合分词等)的技术介绍 2.开源、中文分词工具一一Jieba 简介 难点:分词歧义、未登录词、分词粒度粗细等都是影响分词效果的重要因素 方法:规则分词、统计分词和混合分词(规则+统计) 1. 常用分词的技术介绍 1.1规则分词 基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配找到则切...原创 2019-09-01 20:23:53 · 355 阅读 · 0 评论