MonkeyOCR 是一款基于轻量级文档解析模型的 OCR 工具,参数量仅为 3B,却在性能上超越了 Gemini 2.5 Pro 等闭源模型。它不仅能高精度识别文字、公式和表格,还能完整保留原始文档的结构与布局关系。
Colab 安装介绍
接下来介绍使用 Colab
的 T4
GPU 来测试使用,看看效果如何。
拉取项目
首先需要拉取官方的项目代码到本地
|
|
然后我们需要手动输入命令去切换到项目目录来
|
|
安装 CUDA
支持
首先我们要先看一下当前的 CUDA
版本
|
|
从上图可以看到是 12.4
的版本,所以我们就安装对应的版本依赖包
|
|
安装 LMDeploy
LMDeploy
是一个高效且友好的 LLM 模型部署工具箱,功能涵盖了量化、推理和服务。
|
|
安装项目依赖
|
|
下载模型
如果使用 Huggingface
下载模型,可以执行以下命令,不过一般 Colab
已经自带
|
|
或者可以使用 modelscope
|
|
修复 T4 显卡问题:Shared Memory Error 问题 (可选)
如果使用的 T4
显卡的话,在执行任务的时候,就会提示 Shared Memory Error
的错误。主要是因为 Flash Attention
使用的共享内存超过了 GPU 的硬件限制, T4
显卡在 Compute Capability 7.5 (Turing) 上,每个线程块(block)的最大共享内存为:
48 KB = 49152 Bytes
而程序申请了 65538 字节 ,远远超过了硬件限制。
|
|
官方文档上也有对于不同的显卡做了说明。
https://github.com/Yuliang-Liu/MonkeyOCR/blob/main/docs/install_cuda.md#install-with-cuda-support
效果测试
测试1
我们使用一张带图片的 pdf
文档来试试
执行以下命令进行解析
|
|
如果没有报错的话,就可以看到如下图的内容
我们将它打包下载到本地看一下,排版、标题等基本跟 pdf
一致
而且图片也能够单独识别出来,放在统一的文件夹内
测试2
我们使用一张带表格的 pdf
文档来试试
从资源面板看到,在运行的时候,大概使用了 10G
的显卡显存
这次用了 15
秒左右
本地打开看一下效果,表格能很好的识别出来了
总结
从两次测试来看,都能够很好的识别到 pdf
中的内容,不管是图片还是表格,这种在以前 ocr
工具中效果不太好的情况,在 MonkeyOCR
工具中,有了很好的改善。
然后模型大小只有 3B
参数,但是对于显卡的要求还是比较高的,一般入门级别的显卡可能就有点吃力了。
目前这款工具能够支持 中文
和 英文
,后续可能还会支持更多的语种。