基于crf的命名实体识别的一部分总结加文本分类大致流程

论文一:基于条件随机场的中文人名性别识别

方法:1.将知识的学习转换为字符串的标注(crf)

           2.按字抽取,对每一个字进行分类识别(机器学习)

性能评价:采用比较常见的性能评价指标准确率Precision、召回率RecallF1-Measure

一、文本预处理:

分词:方法一:查词典法,不断查找语词典一样的词语从而完成分词

           方法二:机器学习/统计法:hmm crf  在一起的频率最高的,就分成一个词语

           工具:jieba分词,ltp。。。社交语言的分词:正则表达式

词干提取器:各种stemmer(找词根)

from nltk.stem.porter import PorterStemmer

porter_stemmer=Portemmar()

porter_stemmer.stem('maximum')

输出即为:maximum

  

停止词:基于意思的歧义消除,即,如果注重文本的意思,则需要使用停用词。若只注重行文习惯,则不应去除停止词

词形统一化


二、自然语言处理:文本变数字(特征化)

三、根据ml模型,对应上各自的label


data.head()#先看数据长啥样






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值