自然语言处理
文章平均质量分 93
micro wen
学习如逆水行舟,不进则退
展开
-
Mecab往现有的词典中追加词条
前言最近由于项目需要对微博内容进行分词,但是由于微博中通常会有很多的颜文字(使用标点符号拼凑成的表情符号),但现有的mecab在分词的时候会将颜文字分成多个单独的标点符号,为了方便,我直接使用现有的颜文字库对Mecab的词典进行扩充.特意在这里做个记录,方便以后复习.关于为什么使用Mecab,有时间了把我了解的关于分词的工具整理一下,单独写一篇文章.mecab追加词条有两种方法(推荐使用方法1): 方法1:在用户词典中追加 更新系统词典比较耗时;...原创 2020-05-11 17:39:46 · 977 阅读 · 1 评论 -
中文分词之HMM详解
原文链接:中文分词之HMM详解关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理。尽可能的撇开公式,撇开推导。结合实际开源代码作为例子,争取做到雅俗共赏,童叟无欺。没有公式,就没有伤害。模型介绍第一次听说HMM模型是从李开复的博文论文中听说的:李开复1988年的博士论文发表了第一个基于隐马尔科夫模...转载 2019-12-11 18:28:09 · 701 阅读 · 0 评论 -
mac安装pyhanlp遇到的坑
最近在使用jieba和pyhanlp做命名实体识别,在使用jieba时,直接 pip install jieba 顺顺利利安装成功。安装pyhanlp时,执行 pip install pyhanlp 常规操作。出现如下提示:安装成功!在执行 import pyhanlp 引入时就出现问题了。报错如下:开始网上找解决方案,都没有解决我这问题...原创 2019-12-03 18:02:17 · 1519 阅读 · 2 评论