用Stanford NER训练自己的NER分类器

最新推荐文章于 2023-04-06 15:37:35 发布

ACM_Victoria

最新推荐文章于 2023-04-06 15:37:35 发布

阅读量5.7k

点赞数 5

分类专栏： NLP 文章标签： java 命名实体识别

本文链接：https://blog.csdn.net/yihuikang/article/details/53001633

版权

官方FAQ世界观:关于训练自己的分类器的文档官方没有~~, 但可以看java doc啊, So总是有办法的; 比如至少可以看看CRFClassifier和NERFeatureFactory这两个类.训练数据集格式tab-隔开的方式, word token一列, 分类标签一列; 不能使用空格隔开, 也不能有多余的tab; 一个空行表示分隔一个文档(document), 这里一个文档可以指一个句子或者一

摘要由CSDN通过智能技术生成

官方FAQ世界观:

关于训练自己的分类器的文档官方没有~~, 但可以看java doc啊, So总是有办法的; 比如至少可以看看CRFClassifier和NERFeatureFactory这两个类.

训练数据集格式

tab-隔开的方式, word token一列, 分类标签一列; 不能使用空格隔开, 也不能有多余的tab; 一个空行表示分隔一个文档(document), 这里一个文档可以指一个句子或者一个段落, 一个文档不宜过大, 否则会浪费内存, 也可能导致别的计数问题;

假设现在要用简奥斯汀的小说来训练, 比如用Emma的第一章进行训练, 运行如下命令使得一个token一行:

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer jane-austen-emma-ch1.txt > jane-austen-emma-ch1

最低0.47元/天解锁文章

ACM_Victoria

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
用Stanford NER训练自己的NER分类器

官方FAQ世界观:关于训练自己的分类器的文档官方没有~~, 但可以看java doc啊, So总是有办法的; 比如至少可以看看CRFClassifier和NERFeatureFactory这两个类.训练数据集格式tab-隔开的方式, word token一列, 分类标签一列; 不能使用空格隔开, 也不能有多余的tab; 一个空行表示分隔一个文档(document), 这里一个文档可以指一个句子或者一
复制链接

扫一扫