mirror of https://github.com/labring/FastGPT.git synced 2025-07-23 13:03:50 +00:00

Files

ROKY 8a68de6471 add pdf-mineru (#4276 )

* add pdf-mineru

添加了基于MinerU的PDF转Markdown接口服务，调用方式与pdf-marker一致，开箱即用。

* Rename Readme.md to README.md

* Rename pdf_parser_mineru.py to main.py

2025-03-24 17:17:08 +08:00

2.7 KiB

Raw Blame History

Readme

项目介绍

本项目参照官方插件**pdf-marker，**基于MinertU实现了一个高效的 PDF 转 Markdown 接口服务，通过高性能的接口设计，快速将 PDF 文档转换为 Markdown 格式文本。

**简洁性：**项目无需修改代码，仅需调整文件路径即可使用，简单易用
**易用性：**通过提供简洁的 API，开发者只需发送 HTTP 请求即可完成 PDF 转换
**灵活性：**支持本地部署，便于快速上手和灵活集成

配置推荐

配置及速率请参照MinerU项目官方介绍。

本地开发

基本流程

1、安装基本环境，主要参照官方文档使用CPU及GPU运行MinerU的方式进行。具体如下，首先使用anaconda安装基础运行环境

conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

2、下载模型权重文件

pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py

python脚本会自动下载模型文件并配置好配置文件中的模型目录

配置文件可以在用户目录中找到，文件名为magic-pdf.json

windows的用户目录为 "C:\Users\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"

3、如果您的显卡显存大于等于 8GB ，可以进行以下流程，测试CUDA解析加速效果。默认为cpu模式，使用显卡的话需修改【用户目录】中配置文件magic-pdf.json中"device-mode"的值。

{
  "device-mode":"cuda"
}

4、如需使用GPU加速，需额外再安装依赖。

pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 "numpy<2.0.0" --index-url https://download.pytorch.org/whl/cu118

pip install paddlepaddle-gpu==2.6.1

5、克隆一个FastGPT的项目文件

git clone https://github.com/labring/FastGPT.git

6、将主目录设置为 plugins/model 下的pdf-mineru文件夹

cd /plugins/model/pdf-mineru/

7、执行文件pdf_parser_mineru.py，启动服务

python pdf_parser_mineru.py

访问示例

仿照了pdf-marker的方式。

curl --location --request POST "http://localhost:7231/v1/parse/file" \
--header "Authorization: Bearer your_access_token" \
--form "file=@./file/chinese_test.pdf"

2.7 KiB Raw Blame History Unescape Escape