Windows安装Marker

kunxcdb

已于 2024-09-13 16:31:12 修改

阅读量1.2k

点赞数 4

文章标签： ocr pdf 经验分享

于 2024-09-13 08:36:37 首次发布

本文链接：https://blog.csdn.net/weixin_44772676/article/details/142170216

版权

安装miniconda

在miniconda清华源当中下载合适的安装包并安装

将conda的源替换为清华源，这里参照anaconda清华源的使用方法进行操作

打开Anaconda Powershell Prompt(miniconda3)，输入conda config --set show_channel_urls yes显示配置文件
在C盘用户-用户名的文件夹中，找到.condarc文件，并用编辑器打开（参考路径：C:\Users\<YourUserName>\.condarc）
3.将文件夹内容替换为以下内容并保存

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

在Anaconda Powershell Prompt(miniconda3)中输入conda clean -i

配置相关环境

创建新环境

打开Anaconda Powershell Prompt(miniconda3)，输入以下命令创建环境（推荐python版本3.10）

conda create -n marker python=3.10

其中marker为环境名称，替换为自己需要的名称

创建完成后，激活环境

conda activate marker

替换pip源

安装需要依赖pip（在Anaconda Powershell Prompt(miniconda3)下激活环境后进行）
通过以下命令替换为阿里源

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple

安装相关依赖

这里先要安装pytorch，没有安装的话，在安装surya_ocr时会自动安装。因为本次安装使用cpu进行文档转换而不是gpu，所以直接用pip安装surya_ocr，有NVIDIA显卡先自行在新环境配置好cuda和pytorch再安装依赖。

默认使用surya_ocr而不是ocrmypdf进行文档OCR操作。通过以下下命令安装依赖包

pip install surya_ocr
pip install scikit-learn
pip install texify
pip install pdftext
pip install rapidfuzz

下载marker和模型

下载marker至本地，并在项目根目录下新建文件夹vikp

从国内模型镜像站hf-mirror中查找并下载以下模型：

vikp/surya_det3
vikp/surya_layout3
vikp/surya_order
vikp/texify
vikp/pdf_postprocessor_t5
vikp/surya_rec2

刚刚新建的vikp文件夹当中新建以上模型同名的文件夹

surya_det3
surya_layout3
surya_order
texify
pdf_postprocessor_t5
surya_rec2

将镜像站模型各个项目中的Files中，下载全部文件到对应文件夹中

使用方法

在Anaconda Powershell Prompt(miniconda3)下激活环境后，进入根目录python运行相关的文件即可使用，相关命令自行查询官方可根据需要在你的文件目录\marker\marker下面打开settings.py进行设置和调整