安装miniconda
在miniconda清华源当中下载合适的安装包并安装
将conda的源替换为清华源,这里参照anaconda清华源的使用方法进行操作
- 打开Anaconda Powershell Prompt(miniconda3),输入
conda config --set show_channel_urls yes
显示配置文件 - 在C盘用户-用户名的文件夹中,找到
.condarc
文件,并用编辑器打开(参考路径:C:\Users\<YourUserName>\.condarc
)
3.将文件夹内容替换为以下内容并保存
channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
- 在Anaconda Powershell Prompt(miniconda3)中输入
conda clean -i
配置相关环境
创建新环境
打开Anaconda Powershell Prompt(miniconda3),输入以下命令创建环境(推荐python版本3.10)
conda create -n marker python=3.10
其中marker
为环境名称,替换为自己需要的名称
创建完成后,激活环境
conda activate marker
替换pip源
安装需要依赖pip(在Anaconda Powershell Prompt(miniconda3)下激活环境后进行)
通过以下命令替换为阿里源
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple
安装相关依赖
这里先要安装pytorch,没有安装的话,在安装surya_ocr时会自动安装。因为本次安装使用cpu进行文档转换而不是gpu,所以直接用pip安装surya_ocr,有NVIDIA显卡先自行在新环境配置好cuda和pytorch再安装依赖。
默认使用surya_ocr而不是ocrmypdf进行文档OCR操作。通过以下下命令安装依赖包
pip install surya_ocr
pip install scikit-learn
pip install texify
pip install pdftext
pip install rapidfuzz
下载marker和模型
下载marker至本地,并在项目根目录下新建文件夹vikp
从国内模型镜像站hf-mirror中查找并下载以下模型:
- vikp/surya_det3
- vikp/surya_layout3
- vikp/surya_order
- vikp/texify
- vikp/pdf_postprocessor_t5
- vikp/surya_rec2
刚刚新建的vikp文件夹当中新建以上模型同名的文件夹
surya_det3
surya_layout3
surya_order
texify
pdf_postprocessor_t5
surya_rec2
将镜像站模型各个项目中的Files中,下载全部文件到对应文件夹中
使用方法
在Anaconda Powershell Prompt(miniconda3)下激活环境后,进入根目录python运行相关的文件即可使用,相关命令自行查询官方可根据需要在你的文件目录\marker\marker
下面打开settings.py
进行设置和调整