数据提取与标注

在对模型进行训练之前我们要尽可能的完成数据标注的任务。

首先要建立合适的标注体系:我们将带结构的实体信息抽取过程转化为了实体关系联合抽取任务,并根据实际需要指定了单种实体多种关系的标注,使其符合CasRel的使用范围,并简化的关系体系,使用软件doccano进行了标注。

标注结果如下:

doccano的安装以及使用

Doccano 是一个开源的文本标注工具,可以帮助你进行各种文本分类、序列标注和实体识别任务。以下是安装 Doccano 的步骤:

一. 使用 pip 安装

  1. 创建虚拟环境(可选,但推荐):

    python -m venv venv source venv/bin/activate # 如果你使用的是 Windows,则运行 venv\Scripts\activate

  2. 安装 Doccano

    pip install doccano

  3. 初始化数据库

    doccano init

  4. 创建超级用户

    doccano createuser --username admin --password password --email admin@example.com

  5. 运行 Doccano

    doccano webserver --port 8000
    
  6. 访问 Doccano:在浏览器中打开 http://localhost:8000 以访问 Doccano。

额外配置

根据你的需求,你可以进一步配置 Doccano,例如设置数据库、配置 HTTPS 等。详细的配置选项和高级设置可以参考 Doccano 的官方文档和 GitHub 仓库的 README 文件。

如果在安装或使用过程中遇到任何问题,可以参考 Doccano 的 GitHub 问题页面或社区讨论来寻求帮助。

二. 使用doccano

安装完 Doccano 之后,具体的使用步骤如下:

1. 登录 Doccano

1. 打开浏览器,访问 `http://localhost`(如果使用 Docker 安装)或 `http://localhost:8000`(如果使用 pip 安装)。
2. 使用你在创建超级用户时设置的用户名和密码登录。

2. 创建项目

1. 登录后,你会看到一个欢迎页面。点击右上角的 "Create Project" 按钮。
2. 填写项目名称和描述,并选择项目类型(文本分类、序列标注、实体识别等)。
3. 点击 "Create" 按钮创建项目。

3. 导入数据

1. 进入你刚创建的项目。
2. 点击页面左侧的 "Upload Data" 按钮。
3. 选择要导入的文件。Doccano 支持多种文件格式,如 CSV、JSON 等。
4. 点击 "Upload" 按钮导入数据。

4. 开始标注

1. 数据导入完成后,点击左侧的 "Examples" 菜单。
2. 你会看到数据列表。点击任意一条数据进入标注页面。
3. 根据项目类型进行标注:
   - **文本分类**:选择一个或多个类别。
   - **序列标注**:选择文本片段并分配标签。
   - **实体识别**:标记实体并分配标签。

4. 完成标注后,点击 "Save" 按钮保存。

5. 管理标签

1. 在项目页面,点击左侧的 "Label" 菜单。
2. 你可以在这里创建、编辑或删除标签。
3. 点击 "Create Label" 按钮,输入标签名称和颜色,点击 "Save" 按钮保存。

6. 导出数据

1. 当你完成标注任务后,可以将标注的数据导出。
2. 在项目页面,点击左侧的 "Export Data" 按钮。
3. 选择导出的文件格式,然后点击 "Export" 按钮。

  • 20
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值