【doccano】文本标注工具doccano使用

文本标注工具doccano安装与使用

doccano简介

Doccano 是一个开源的协作式注释工具,用于标注文本数据以进行自然语言处理 (NLP) 任务,例如命名实体识别、文本分类、序列标注等。它提供了一个简单易用的用户界面,允许团队协同工作,共同标注数据集。
博主使用doccano导入的数据集格式为TextLine(按行读取,每一行为一条数据,文件为.txt格式),如下图
在这里插入图片描述
导出格式为jsonl格式,每一行是一条数据的标注,每一行对应数据集的一行
导出格式如下:text里应该是数据集文本里的每一条文本
在这里插入图片描述

安装

1)安装anaconda
省略
2)打开anaconda prompt,创建虚拟环境,安装doccano

conda create -n label_text python=3.11
conda activate label_text
pip install doccano

使用

使用必须在虚拟环境内部使用

conda activate label_text
doccano init
doccano createuser --username jyf --password 123321
doccano webserver --port 8000

在这里执行最后一条命令的时候可能会报错8000端口被占用,使用命令行检查8000端口使用情况并kill进程(这个进程暂时用不到的话),博主之前就是酷狗音乐占用了,如下图,最后一列是进程的pid. windows也可在任务管理器中结束进程,在任务管理器的详细信息中,找到进程的pid,右键结束进程
当然也可以选择换一个端口,但也可能被占用

netstat -ano | find "8000" //windows
netstat -ano | grep 8000//linux
kill PID

在这里插入图片描述
在这里插入图片描述
8000端口打开成功后
打开另一个anaconda prompt

conda activate label_text
doccano task

不要关闭两个anaconda窗口
在浏览器输入:http://127.0.0.1:8000
进入界面:
在这里插入图片描述
点击:
get start=》登录(账号密码就是在doccano init时输入的)=>create 创建项目
开始标注
首先创建标签
在这里插入图片描述
点击labels,actions=》create label
创建好标签之后,导入数据集
点击dataset=》actions=》import datasets 选择之前准备好的训练集txt文件即可(一行一行的),导入好后点击每个表项的annotate开始标注
全部标注完后
点击actions=》export datasets可导出标注好的数据集

后续使用

在之后再次使用时,不需要再doccano init和创建用户了(数据库和用户已经被创建好了),只需要在之前创建好的虚拟环境下doccano webserver,但我使用的是8000端口,经常被占用,可以另起一个端口doccano webserver --port 8080,之后另起一个窗口doccano task即可。端口被占用报错如下。
在这里插入图片描述
在这里插入图片描述

参考

【1】https://blog.csdn.net/wincky3/article/details/123627508

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值