论文一:基于条件随机场的中文人名性别识别
方法:1.将知识的学习转换为字符串的标注(crf)
2.按字抽取,对每一个字进行分类识别(机器学习)
性能评价:采用比较常见的性能评价指标准确率Precision、召回率Recall和F1-Measure
一、文本预处理:
分词:方法一:查词典法,不断查找语词典一样的词语从而完成分词
方法二:机器学习/统计法:hmm crf 在一起的频率最高的,就分成一个词语
工具:jieba分词,ltp。。。社交语言的分词:正则表达式
词干提取器:各种stemmer(找词根)
from nltk.stem.porter import PorterStemmer
porter_stemmer=Portemmar()
porter_stemmer.stem('maximum')
输出即为:maximum
停止词:基于意思的歧义消除,即,如果注重文本的意思,则需要使用停用词。若只注重行文习惯,则不应去除停止词
词形统一化
二、自然语言处理:文本变数字(特征化)
三、根据ml模型,对应上各自的label
data.head()#先看数据长啥样