(2020)指代消解ontoNotes_Release_5.0处理详细流程

  • 最近在做指代消解的任务,目前才处理完数据部分,确实有些繁琐,因此记录

  • 准备用spanbert做的指代消解,所以该代码里的.sh文件: github代码

数据获取
  • 获取数据部分也需要耐心,参考以下博客(可以搭配看)

  • 注意事项

    • 在获取ontoNotes 5.0数据时,注册完LDC账号后,立马给LDC官方发邮件,告知你比较急,希望将管理员信息告诉你或者直接将你拉入组织。
    • 如果LDC告知你管理员信息,立马联系管理员。

数据处理

  • spanbert中的setup_training.sh脚本为例,我之前是在win10上处理的,最好在Linux上处理(别担心我也是linux小白)
  • 下方两个连接是官方的处理教程(参考即可)

步骤:

🐢 1.在 数据处理教程1 中下载(都在该页面中):
🐢 2. 将图中7个文件放在一个目录下,解压即可。
  • 前6个conll解压后生成conll-2012文件夹

  • 最后一个生成ontonotes-release-5.0文件夹

  • 到此才刚下载好数据

  • setup_training.sh部分
    在这里插入图片描述

🐢 3. 执行setup_training.sh脚本
  • sh空格./setup_training.sh空格ontonotes-release-5.0路径空格conll-2012路径
  • 只要下图部分即可(下面部分也先去掉),因为这部分需要在python2运行,或者改成python3(我比较懒,文末有转换方法),不然会报错的
    在这里插入图片描述
    我自己的例子:
    • setup_training.shconll-2012 ontonotes-release-5.0在同一级目录中,转到该文件目录,执行:sh空格./setup_training.sh空格./ontonotes-release-5.0空格./
      在这里插入图片描述
🐢 4. Setup(代码中markdowm文件的步骤)
  • 以下这部分按顺序执行,建议在linux中操作,主要涉及到.so动态库,windows不太好操作。

  • 配置环境: pip install -r requirements.txt

  • export data_dir=</path/to/data_dir>(我是 export data_dir=./)

  • ./setup_all.sh: This builds the custom kernels(我是 bash ./setup_all.sh)

  • 现在的setup_training.sh内容如下:在这里插入图片描述

    • ./setup_training.sh <ontonotes/path/ontonotes-release-5.0> $data_dir(我是bash空格./setup_training.sh空格./ontonotes-release-5.0/空格./)
    🐢5. 最后会在data_dir目录生成如下json文件

    在这里插入图片描述

    • 英文:训练集2802个文档,验证集343个文档,测试集348个文档

    • 中文:训练集1810个文档,验证集252个文档,测试集218个文档

      • 注:生成中文json需要修改的地方

        • setup_training.sh
          在这里插入图片描述
        • minimize.py
          在这里插入图片描述
  • 到此数据处理完毕,不足之处还请指出,我将及时更正。

  • 补充:If you are using Python 3.X, you have to edit the conll-2012/v3/scripts/skeleton2conll.py file

    • Change except InvalidSexprException, e: to except InvalidSexprException as e
    • Change all print to print()
  • 10
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 41
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!
### 回答1: dependencies_x64_release 是一个编程术语,指的是一个 x64 固定平台下的库依赖项。在软件开发中,开发人员经常需要利用各种库来简化代码编写、提高代码质量和效率。这些库被称为“依赖项”,因为它们依赖于特定的编程语言或平台,并提供特定的功能或类库。dependencies_x64_release 指的是特定的库依赖项,在编译x64固定平台下的代码时需要使用它。 这个名称的后缀“_x64_release”是指特定的编绎方式和目标平台。在编写代码时,开发人员可以将代码编译为不同的目标平台,例如 x86 和 x64。x64是一种可扩展性非常好的64位平台,它比x86平台更加稳定、更快、更安全,并且可以访问更多的内存。 除了平台外,这个库还有一个“release”的后缀,表示它是在发布代码时需要使用的库,通常会进行一些优化和压缩,以减少代码文件的大小、提高运行速度、减少资源占用等。 总之,dependencies_x64_release 是开发人员所需要的一个特定库依赖项,用于编写在 x64 平台上运行的代码。它方便了开发过程,减少了代码量,提高了效率和安全性。 ### 回答2: dependencies_x64_release是一个指代性的词汇,通常指开发人员为了让自己的工程正常运行而需要依赖的一些库文件或组件,在这里的x64指的是64位系统下的依赖。这些依赖项包括各种应用程序编程接口(API)、动态链接库(DLL)、静态链接库(LIB)、头文件等等,通过这些依赖项,开发人员可以在自己的程序中使用一些常用的功能和函数库,避免重复造轮子。 dependencies_x64_release不同于源代码,因为它是一个编译好的的二进制文件,不能直接修改内容。如果开发人员需要修改其中的某些功能,则需要重新编译源代码并生成新的二进制文件。同时,由于依赖项的版本问题,如果开发人员使用了过时的依赖项,可能会导致程序运行出现问题,因此我们需要时常更新依赖项列表,并选择适合自己的版本。 总之,dependencies_x64_release是一个非常重要的概念,它直接关系到程序的运行和使用效果,对于开发人员而言,了解并正确地管理这些依赖项十分必要。 ### 回答3: dependencies_x64_release是一个软件开发中常用的术语,通常指的是某一程序在运行过程中需要的外部依赖包,以x64架构下的释放版本为例。 在软件开发中,一个程序通常都会涉及到各种各样的依赖,比如说某个库文件、某个工具包等等。当我们想要将程序转换成可以直接运行的可执行文件时,就需要将这些依赖包也打包成一个整体,这个整体就被称为dependencies_x64_release。 在x64架构下,该依赖包通常会被编译成一个64位的可执行文件。这样可以更好的充分利用计算机的性能,使程序更加高效稳定。 值得注意的是,不同的软件所需要的依赖包可能各不相同,因此我们在使用某一程序之前,需要先安装好它需要的dependencies_x64_release包以确保程序能够正常运行。而且,当我们使用某一软件时,也需要及时更新、升级它的依赖包,以避免出现安全漏洞和性能问题。 总之,dependencies_x64_release是软件开发中一个重要的概念,它保障了程序的稳定性和可靠性,对于软件开发者和使用者来说都十分重要。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 41
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值