GROBID库文献解析

文章讲述了如何利用GROBID库,一个专为科技文献解析设计的机器学习工具,配合Docker在Windows系统上进行PDF文档的批量处理。作者详细介绍了Docker的安装、工作原理及其优势,以及如何在WSL2环境下安装GROBID并调用其API进行XML结构化文档生成。
摘要由CSDN通过智能技术生成

1. 起因

  • 由于某些原因需要在大量的文献中查找相关内容,手动实在是太慢了,所以选择了GROBID库进行文献批量解析

2. GROBID介绍

  • GROBID是一个机器学习库,用于将PDF等原始文档提取、解析和re-structuring为结构化的XML/TEI编码文档,特别关注技术和科学出版物。
  • 能够提取文献中的标题、文本、图表及参考文献等信息
  • GROBID目前仅支持Linux及macOS;windows系统需要通过docker调用

3. Docker安装

  • 已经安装docker请跳过这一步骤

3.1 Docker介绍[来自GPT]:

  • Docker 是一个开源的应用容器引擎,它允许开发者将应用程序与其环境一起打包(称作容器化),从而在任何支持Docker的环境中部署和运行。这项技术提供了一种简化的方法,可以将复杂的应用程序快速、一致地部署在不同的环境中——不管是在本地开发机器上,还是在外部的测试环境或云平台上。

3.1.1 Docker的主要组件:

  • Docker 引擎:负责创建、运行和管理容器的核心服务。
  • Docker 容器:运行应用程序的轻量级、独立的环境。容器在从图片(Image)实例化时创建,其中包含了运行应用所需的代码、运行库、环境变量和配置文件。
  • Docker 镜像:是一个只读的模板,用于创建容器。镜像包含了运行特定应用所需的所有内容——代码、运行时、库等。
  • Docker Hub:是一个Docker容器镜像的公共仓库,类似于GitHub,可以用来存放、共享和管理镜像。
  • Docker 仓库:存放Docker镜像的地方,可以是公共的也可以是私有的。
  • Dockerfile:是一个文本文件,包含了一系列的指令,用于自动构建一个新的Docker镜像。
  • Docker Compose:是一个工具,允许您使用YAML文件定义多个容器的应用服务,并且通过一个命令来启动和停止这些服务。

3.1.2 Docker的工作原理

Docker 使用容器来隔离和运行应用程序。容器是一种轻量级的虚拟化,它运行在同一个操作系统内核上,但保持应用程序的隔离。容器比传统的虚拟机(VM)更加高效,因为它们共享宿主机的内核,而不需要为每个虚拟机运行一个完整的操作系统。

3.1.3 Docker的优势

  • 快速,一致地交付您的应用程序:Docker可以快速构建、测试并部署代码,因为容器化的应用可以在不同的环境中保持一致。
  • 响应性强的部署和扩展:容器可以几乎即时启动,这使得扩展和自动化部署变得简单快捷。
  • 在同一个硬件上运行更多的工作负载:由于容器共享宿主机的系统核心,它们使用更少的资源,这意味着你可以在相同的硬件上运行更多的服务。

3.1.4 Docker的应用场景

  • 提供一致的开发环境:无论开发团队成员使用何种操作系统,Docker容器保证应用能够在一致的环境中运行。
  • 微服务架构:每个微服务可以被容器化,独立部署和扩展。
  • 快速部署:容器显著减少了从开发生命周期到生产部署的时间。
  • 应用程序隔离:保证在每个容器中运行的应用程序是相互隔离的。
  • 资源优化:容器的轻量级特性意味着更有效的资源使用。

总的来说,Docker是当今极为重要的DevOps工具之一,它极大地促进了应用程序的快速开发、测试和部署流程。

3.2 Windows版本

  • 笔者的系统为win11家庭版,接下来将以此为基础进行介绍
    在这里插入图片描述

3.3打开Hyper-V

  • 将以下代码复制到txt文本中,文件名为Hyper.txt
  • 将后缀改为Hyper.bat,点击bat文件重启电脑后就设置好了
pushd "%~dp0"
dir /b %SystemRoot%\servicing\Packages\*Hyper-V*.mum >hyper-v.txt
for /f %%i in ('findstr /i . hyper-v.txt 2^>nul') do dism /online /norestart /add-package:"%SystemRoot%\servicing\Packages\%%i"
del hyper-v.txt
Dism /online /enable-feature /featurename:Microsoft-Hyper-V-All /LimitAccess /ALL
  • 打开任务管理器–性能,确保虚拟化已开启
    在这里插入图片描述
  • 打开控制面板-程序和功能-启用或关闭Windows功能
  • 确保下面两个功能也是正常打开的在这里插入图片描述

3.4 安装WSL2

  • WSL2相关介绍(来自GPT):WSL2,即Windows Subsystem for Linux version 2,是微软为Windows 10和Windows 11提供的一个功能,允许用户直接在Windows上运行Linux环境,包括大多数命令行工具、实用程序和应用程序。它是WSL的第二版本,提供了更完整的Linux兼容性和更高的性能。

在这里插入图片描述

  • 管理员权限打开cmd,WSL version只要为2就是正确的
    在这里插入图片描述

3.5 Docker下载与安装

  • https://www.docker.com/products/docker-desktop/

  • 访问上述链接,下载Windows版本
    在这里插入图片描述

  • 下载完成后,双击打开等待程序安装完成并重启电脑

  • 打开后只要不报错就ok

  • 报错的话自行查找原因

  • 我这边遇到过两类错误:docker desktop wsl distro terminated abruptly以及unexpected wsl error,都是通过卸载关闭功能重装解决的,可以参考https://zhuanlan.zhihu.com/p/669999834

3.6 GROBID安装

  • GROBID库目前存在两个版本: full lightweight,我安装的第二个

  • Full: 可运行深度学习和 CRF 模型的完整镜像(见最新版本号)(10GB):该镜像包括所有必要的 python 和 TensorFlow 库、GPU 支持和所有 DL 模型资源。它可以提供更准确的结果,特别是在参考文献提取/解析和引文上下文识别方面。根据 GPU(推荐)的可用性与否,某些深度学习模型可能会带来更慢的运行时间和更高的内存使用率。该图像比纯 CRF 图像大得多。完整图像包含 Python 和 TensorFlow/Pytorch 库(超过 3GB)以及预加载的嵌入(约 5GB),但我们建议使用它。

  • Lightweight: 仅包含 CRF 模型的轻量级图像(300MB):该图像在运行时间和内存使用方面具有最佳性能,并限制了图像的大小,但它没有使用一些在准确性方面表现最佳的模型。图像信息可在此处找到。如果可能,请使用上述完整图像。

docker pull lfoppiano/grobid:0.8.0 #下载
docker run --rm --init --ulimit core=0 -p 8070:8070 lfoppiano/grobid:0.8.0 #运行
  • 输入上述代码到下面这样出现model path就完成了,此时可以访问进入网站Grobid Web Application 解析成功
    在这里插入图片描述
    在这里插入图片描述

4 调用API

import os
import re
import requests
import glob
import time
from  bs4 import BeautifulSoup
from tqdm import *

files=glob.glob(r"...\*.pdf")

url = "http://localhost:8070/api/processFulltextDocument"

for f in tqdm(files):
    try:
        params = dict(input=open(f, 'rb'))
        response = requests.post(url, files=params, timeout=300)
        reslut=response.content.decode("utf-8")
        s=BeautifulSoup(reslut,'lxml')

        save=r"...\XML\{}.xml".format(f.split("\\")[-1][:-4])
        with open(save, 'w', encoding='utf-8') as file:
            # 写入XML声明头
            file.write('<?xml version="1.0" encoding="UTF-8"?>\n')
            # 写入剩余的XML数据
            file.write(str(s))
        time.sleep(1)
    except Exception as e:
        print(f)
        pass

参考

  1. https://blog.csdn.net/yt266666/article/details/127453067?spm=1001.2014.3001.5502
  2. https://grobid.readthedocs.io/en/latest/Grobid-docker/
  3. https://zhuanlan.zhihu.com/p/669999834
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值