一、开源数据标注工具
1. BRAT
-
安装环境:osx或者linux系统,windows(linux虚拟环境)
-
标注任务支持:实体识别、实体关系抽取、事件抽取标注
-
标注语言支持:可适配到中文标注
-
标注任务扩展:可适配到Aspect-Based Sentiment Analysis方向数据标注
-
相关🔗:
-
官方介绍[1]
-
BRAT项目github地址[2]
-
brat使用[3]
-
2. prodigy
-
标注任务支持:实体识别、分类、情感分析
-
标注语言支持:只针对英文
-
特点:基于主动学习的标注工具
3. Chinese-Annotator
-
标注任务支持:中文命名实体识别、中文关系识别、中文文本分类
-
安装环境:面向OSX
-
特点:灵感来源Prodigy,基于主动学习的标注系统,同时支持用户标注
-
相关🔗:
-
Chinese-Annotator项目github地址[4]
-
4. YEDDA
-
标注任务支持:实体识别、实体关系抽取、事件抽取
-
标注语言支持:支持大部分语言,包括英语、中文
-
特点:基于python2、可标记种类数只有7种
-
相关🔗:
-
YEDDA项目github地址[5]
-
5. IEPY
-
标注任务支持:主要是关系抽取
-
相关🔗:
-
IEPY项目github地址[6]
-
官方说明文档[7]
-
6. Doccano
-
标注任务支持:实体识别、情感分类、机器翻译
-
标注语言:多语言
-
Doccano项目github地址[8]
-
Doccano实体标注演示demo[9]
-
7. Deepdive
-
相关🔗:
-
DeepDive[10]
-
8. snorkel
-
相关🔗:
-
snorkel项目github地址[11]
-
二、总结
目前来看要做中文领域事件抽取样本标注,可选用的是YEDDA和BRAT。笔者已经使用过BRAT来进行事件抽取标注了,后续针对BRAT的使用方法会专门出一期文章。
三、其他参考资料:
-
2019常用NLP标注工具简单介绍[12]
-
中文文本标注工具调研以及BRAT安装使用[13]
-
语料标注工具1[14]
-
语料标注工具2[15]
-
语料标注工具3[16]
-
情感分析系列之《利用BRAT进行中文情感分析语料标注》[17]
参考资料
[1] 官方介绍: http://brat.nlplab.org/introduction.html
[2] BRAT项目github地址: https://github.com/nlplab/brat
[3] brat使用: https://blog.csdn.net/guofei_fly/article/details/104113217
[4] Chinese-Annotator项目github: https://github.com/deepwel/Chinese-Annotator
[5] YEDDA项目github地址: https://github.com/jiesutd/YEDDA
[6] IEPY项目github地址: https://github.com/machinalis/iepy
[7] 官方说明文档: https://iepy.readthedocs.io/en/latest/
[8] Doccano项目github地址: https://github.com/doccano/doccano
[9] Doccano实体标注演示demo: http://doccano.herokuapp.com/demo/named-entity-recognition/
[10] DeepDive: http://deepdive.stanford.edu/labeling
[11] snorkel项目github地址: https://github.com/snorkel-team/snorkel
[12] 2019常用NLP标注工具简单介绍:
https://blog.csdn.net/weixin_44912159/article/details/103654550
[13] 中文文本标注工具调研以及BRAT安装使用: https://www.jianshu.com/p/3a70ee9ad632
[14] 语料标注工具1: https://zhuanlan.zhihu.com/p/64513343
[15] 语料标注工具2: https://zhuanlan.zhihu.com/p/64574125
[16] 语料标注工具3: https://zhuanlan.zhihu.com/p/64745990
[17] 情感分析系列之《利用BRAT进行中文情感分析语料标注》
: https://blog.csdn.net/owengbs/article/details/49780225