doccano简介
doccano 是一个开源的文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。因此,可以为情感分析、命名实体识别、文本摘要等创建标记数据。只需创建一个项目,上传数据并开始注释。
安装
本文是基于anaconda来进行安装。
首先,在anaconda下创建虚拟环境:
conda create -n doccano python=3.9
注:建议python版本为3.9+
然后,激活doccano环境:
conda activate doccano
在doccano环境下安装doccano:
pip install doccano
运行
在doccano环境下执行:
doccano init
注:在初始化过程中可能会遇到如下报错:
django.db.utils.OperationalError: error in index django_celery_results_taskresult_hidden_cd77412f after drop column: no such column: hidden
此时的解决方案为:
pip uninstall Django
pip install Django==4.0.4
即更换Django版本为4.0.4。
初始化成功后,创建用户名和密码:
doccano createuser --username admin --password pass
然后再开启一个Web服务:
doccano webserver --port 8000
最后,再开启一个cmd命令框,进去doccano环境,运行一下命令:
doccano task
现在就可以在浏览器打开下面的链接,用刚才创建的用户名和密码进行登录,进行相关操作了。
http://127.0.0.1:8000/
具体使用方法请参见:如何使用文本标注工具doccano