Doccano工具安装教程/文本标注工具/文本标注自己的项目/NLP分词器工具/自然语言处理必备工具/如何使用文本标注工具

Xayah0416

已于 2023-12-31 18:21:46 修改

阅读量6.9k

点赞数 14

分类专栏：工具教程与技巧文章标签： nlp doccano 中文分词自然语言处理分词器文本标注

于 2023-08-01 15:55:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50592077/article/details/132043914

版权

工具教程与技巧专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了如何安装和配置Doccano文本标注工具，包括安装步骤、参数设置和使用方法，同时提及了与NLP相关的命名实体识别和Transformer技术的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

1、安装说明

2、安装doccano

3、相关参数设置

4、使用doccano

这篇文章是专门的安装教程，后续的项目创建，如何使用，以及代码部分可以参考这篇文章：

NER实战：(NLP实战/命名实体识别/文本标注/Doccano工具使用/关键信息抽取/Token分类/源码解读/代码逐行解读)_会害羞的杨卓越的博客-CSDN博客

1、安装说明

doccano是documment anotation的缩写，是一个开源的文本标注工具，我们可以用它为NLP任务的语料库进行打标。

Doccano是一个非常好用的开源工具，用起来很方便，安装也不麻烦。

首先不要着急去查百度，在github就有安装说明。

安装说明：

pip (Python 3.8+)
Docker
Docker Compose

pip (Python 3.8+)，要求Python环境是3.8以上，但是如果你深度学习环境一套都是3.8以下的，你新建一个python环境就行了，这个工具就只需要标注文本，标注的时候切换到Doccano环境就行了。

2、安装doccano

在prompt中cd到python环境的scripts文件夹（每个conda的python环境都有一个script文件夹）中，如果不知道自己的scripts文件夹在哪儿参考一下我的：

C:\Users\Alex\anaconda3\envs\NER\Scripts

看我的是在这里，我自己新建了一个NER的python环境：

在prompt界面进行操作：

安装指令：

pip install doccano

如果安装太慢，就使用清华镜像：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano

3、相关参数设置

安装完成后，进行初始化操作：

# Initialize database.
doccano init

设置用户名和密码：

# Create a super user.
doccano createuser --username admin --password pass

设置用户名密码的时候，自己一定要记得，如果你没改的话，就是默认的账号名为admin，密码就是pass了，这个账号密码就是是存在云端的。

接着设置服务器端口：

# Start a web server.
doccano webserver --port 8000

这是打开端口成功的界面：

这步做完后，一定要

再打开一个prompt命令窗口，再次cd到scripts文件夹

再打开一个prompt命令窗口，再次cd到scripts文件夹

再打开一个prompt命令窗口，再次cd到scripts文件夹

然后执行以下指令启动服务：

# Start the task queue to handle file upload/download.
doccano task

启动成功的页面

4、使用doccano

服务启动成功后，进入这个地址打开：

http://127.0.0.1:8000/

打开后的页面是这样：

到这里doccano的安装与设置就结束了。

点击右上角进行登录，登录的账号和密码就是前面你自己设置的。

登录后点击开始进入这个页面

到了这里就可以开始创建自己的项目了，你已经完成了doccano文本标注工具的构建。

陆续更新中，有用的话拜托点赞收藏哦。

后续的项目创建，以及如何进行分词，中文分词，请参考这篇文章：

NER实战：(NLP实战/命名实体识别/文本标注/Doccano工具使用/关键信息抽取/Token分类/源码解读/代码逐行解读)_会害羞的杨卓越的博客-CSDN博客

5 优质文章

🧡💛💚💙💜Transformer提出文章论文精读

Transformer:《Attention is all you need》(论文精读/原理解析/模型架构解读/源码解析/相关知识点解析/相关资源提供)_会害羞的杨卓越的博客-CSDN博客

🧡💛💚💙💜Transformer解读：

Transformer算法解读（self-Attention/位置编码/多头注意力/掩码机制/QKV/Transformer堆叠/encoder/decoder）_会害羞的杨卓越的博客-CSDN博客

🧡💛💚💙💜Hugging Face实战

Hugging Face实战（NLP实战/Transformer实战/预训练模型/分词器/模型微调/模型自动选择/PyTorch版本/代码逐行解析）上篇之模型调用_会害羞的杨卓越的博客-CSDN博客

🧡💛💚💙💜bert系列算法

BERT系列算法解读:（RoBERTa/ALBERT/DistilBERT/Transformer/Hugging Face/NLP/预训练模型/模型蒸馏）_会害羞的杨卓越的博客-CSDN博客

🧡💛💚💙💜包括一些大方向的内容

深度学习五大基本网络_常用深度学习网络_会害羞的杨卓越的博客-CSDN博客

机器学习算法（全教程/全解析/源码全解/实战教程）_会害羞的杨卓越的博客-CSDN博客

人工智能的分类：机器学习/专家系统/推荐系统/知识图谱/强化学习/迁移学习/特征工程/模式识别_会害羞的杨卓越的博客-CSDN博客

🧡💛💚💙💜计算机视觉

openCV基础教程_会害羞的杨卓越的博客-CSDN博客

陆续更新中，有用的话拜托点赞收藏哦。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Xayah0416 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。