一、简介
doccano是一个开源的人工文本标注工具。它为文本分类,序列标记和序列到序列任务提供了文本标注功能。我们可以通过该工具标记数据以供情感分析、命名实体识别、文本摘要等任务使用。限免就来简单介绍下它的搭建方法。
Github:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.
Website:doccano - doccano
Documentaion:doccano.
官网有两种安装方式,这里主要讲docker方式
二、搭建步骤
1、启动docker服务(如果还没有安装docker环境,请自行baidu)
sudo service docker start
2、拉取doccano的docker镜像到本地
docker pull doccano/doccano
3、创建docker本地实例(这里的用户名密码邮箱可以随意设置)
docker container create --name doccano \
-e "ADMIN_USERNAME=admin" \
-e "ADMIN_EMAIL=admin@example.com" \
-e "ADMIN_PASSWORD=password" \
-v doccano-db:/data \
-p 8000:8000 doccano/doccano
4、运行docker
docker container start doccano
5、访问http://127.0.0.1:8000,点击login,用户名密码就是第3步设置的用户名密码
三、doccano的使用
1、创建项目,点击Create,不习惯英文的小伙伴可以点击右上角那个EN切换成中文
2、选择项目类别、填写项目名称、简介等基本信息
注:我这里选的是序列标注,overlapping entity 和 relation labeling可以勾选下
3、项目创建好以后,会有一个欢迎界面,可以跟着它的步骤导入数据集,然后就可以开始你的标注之旅啦