GLM-OCR Technical Report
GLM-OCR结合CogViT视觉编码器和GLM语言解码器,提升文档理解效率。
核心发现
方法论
GLM-OCR结合了0.4B参数的CogViT视觉编码器和0.5B参数的GLM语言解码器,形成一个紧凑的多模态模型。该模型采用多标记预测(MTP)机制,在每一步预测多个标记,从而显著提高解码吞吐量,同时通过参数共享保持内存开销低。在系统层面,采用两阶段流水线:PP-DocLayout-V3进行布局分析,然后进行并行区域级识别。
关键结果
- 在OmniDocBench v1.5上,GLM-OCR取得了94.6的总分,超过了许多大型多模态模型。
- 在OCRBench(文本)上达到94.0分,并在UniMERNet上取得96.5分,表明其在文本识别和公式转录上的卓越表现。
- 在PubTabNet上取得85.2分,显示了其在表格结构恢复方面的竞争力。
研究意义
GLM-OCR在文档解析、文本和公式转录、表格结构恢复以及关键信息提取方面表现出色,适用于资源受限的边缘部署和大规模生产系统。其紧凑的架构和结构化生成使其在工业应用中具有广泛的适用性,解决了传统OCR系统在复杂布局和多样化文档格式下的性能瓶颈。
技术贡献
GLM-OCR通过引入多标记预测(MTP)机制和两阶段流水线架构,显著提升了文档理解任务的效率和性能。与现有的多模态大模型相比,GLM-OCR在保持高识别性能的同时,极大地降低了计算成本和内存消耗。
新颖性
GLM-OCR首次在OCR任务中引入了多标记预测(MTP)机制,解决了传统自回归生成在确定性OCR任务中的低效问题。与现有方法相比,其在长结构化输出如表格上的性能提升尤为显著。
局限性
- GLM-OCR在处理极其复杂的文档布局时,可能仍然面临一定的挑战,尤其是在布局分析阶段。
- 在多语言环境下,模型可能需要进一步的微调以确保高准确性。
未来方向
未来工作可以集中在进一步优化模型在多语言和多格式文档上的性能,以及探索更高效的参数共享机制以进一步降低计算成本。
AI 总览摘要
GLM-OCR是一个专为实际文档理解设计的高效0.9B参数紧凑多模态模型。它结合了0.4B参数的CogViT视觉编码器和0.5B参数的GLM语言解码器,实现了计算效率与识别性能的强平衡。为解决标准自回归解码在确定性OCR任务中的低效问题,GLM-OCR引入了多标记预测(MTP)机制,每步预测多个标记,显著提高了解码吞吐量,同时通过共享参数保持内存开销低。在系统层面,采用两阶段流水线:PP-DocLayout-V3首先进行布局分析,然后进行并行区域级识别。广泛的公共基准和工业场景评估显示,GLM-OCR在文档解析、文本和公式转录、表格结构恢复以及关键信息提取方面表现出竞争力或达到最先进水平。其紧凑的架构和结构化生成使其适用于资源受限的边缘部署和大规模生产系统。
在OmniDocBench v1.5上,GLM-OCR取得了94.6的总分,超过了许多大型多模态模型。它在OCRBench(文本)上达到94.0分,并在UniMERNet上取得96.5分,表明其在文本识别和公式转录上的卓越表现。在PubTabNet上取得85.2分,显示了其在表格结构恢复方面的竞争力。此外,在信息提取基准如Nanonets-KIE和手写表单上,GLM-OCR的表现与显著更大的通用多模态模型相当。
除了公共基准,GLM-OCR还在六个高频率的实际场景中进行了评估,包括代码文档解析、自然场景表格识别、手写文本识别、多语言OCR、印章识别和收据KIE。GLM-OCR在所有设置中一致表现出色,在实际表格识别中达到91.5,在印章识别中达到90.5,在收据KIE中达到94.5。这些结果表明,GLM-OCR不仅在精心策划的基准上表现出色,而且在实际生产条件下仍然有效。
GLM-OCR的紧凑参数规模使其非常适合本地化推理和资源受限环境的部署。该模型支持在主流框架下的高效部署,包括vLLM、SGLang和Ollama。为了实现无缝集成,提供了一个全面的SDK用于端到端文档解析工作流。
在云端部署中,GLM-OCR通过MaaS API提供访问。该服务采用统一的定价模式,极大地降低了操作开销,将处理成本降低到传统OCR解决方案的约十分之一。GLM-OCR还支持通过LLaMA-Factory框架进行直接微调,以满足特定领域适应或增强任务性能的需求。
深度分析
研究背景
文档理解是现代信息系统的核心能力,支持从视觉丰富和布局密集的文档中提取和结构化知识,如财务报告、科学文章、合同和发票。传统OCR系统主要关注纯文本转录,并依赖于多阶段流水线和手工规则进行布局解析和下游信息提取。尽管在简单场景中有效,但这些方法在处理复杂布局、多样化文档格式和实际生产需求时往往显得力不从心。近年来,多模态大语言模型(MLLMs)将视觉感知和语言理解统一在一个框架内,显著提高了文档理解性能。然而,其大模型规模和自回归解码范式导致了高计算成本、推理速度慢和内存消耗大,使得在高并发或边缘环境下的大规模部署具有挑战性。
核心问题
在实际生产系统中,文档智能解决方案必须同时提供:对复杂内容如表格、公式、代码和印章的强大性能,高吞吐量和低延迟推理,以及灵活的集成和领域适应性。GLM-OCR的开发旨在通过统一的多模态框架解决这些系统级需求。
核心创新
GLM-OCR建立在GLM-V编码器-解码器框架上,结合了在大规模图文数据上训练的0.4B规模的CogViT视觉编码器、轻量级跨模态连接器和0.5B规模的GLM语言解码器。整个模型仅包含0.9B参数,能够在保持强识别性能的同时实现高吞吐量和低延迟推理。除了架构优化外,GLM-OCR还考虑了传统自回归生成与OCR任务特征之间的不匹配。OCR本质上是一个具有强局部依赖性和显式结构监督的确定性任务,其中严格的自回归逐标记解码效率低下。因此,我们在训练和推理中引入了多标记预测(MTP)。MTP允许同时预测多个标记,大幅提高了训练效率和解码吞吐量,同时保持识别准确性,尤其适用于表格等长结构化输出。
方法详解
- �� GLM-OCR结合了0.4B参数的CogViT视觉编码器和0.5B参数的GLM语言解码器。
- �� 采用多标记预测(MTP)机制,在每一步预测多个标记。
- �� 通过共享参数保持内存开销低。
- �� 系统层面采用两阶段流水线:PP-DocLayout-V3进行布局分析,然后进行并行区域级识别。
- �� 在训练中,GLM-OCR被训练为每步预测十个标记,并在推理时平均每步生成5.2个标记。
实验设计
GLM-OCR在多个公共基准和工业场景中进行了广泛评估。在OmniDocBench v1.5上,GLM-OCR取得了94.6的总分,超过了许多大型多模态模型。在OCRBench(文本)上达到94.0分,并在UniMERNet上取得96.5分,表明其在文本识别和公式转录上的卓越表现。在PubTabNet上取得85.2分,显示了其在表格结构恢复方面的竞争力。此外,在信息提取基准如Nanonets-KIE和手写表单上,GLM-OCR的表现与显著更大的通用多模态模型相当。
结果分析
GLM-OCR在OmniDocBench v1.5上取得了94.6的总分,超过了许多大型多模态模型。在OCRBench(文本)上达到94.0分,并在UniMERNet上取得96.5分,表明其在文本识别和公式转录上的卓越表现。在PubTabNet上取得85.2分,显示了其在表格结构恢复方面的竞争力。此外,在信息提取基准如Nanonets-KIE和手写表单上,GLM-OCR的表现与显著更大的通用多模态模型相当。
应用场景
GLM-OCR在文档解析、文本和公式转录、表格结构恢复以及关键信息提取方面表现出色,适用于资源受限的边缘部署和大规模生产系统。其紧凑的架构和结构化生成使其在工业应用中具有广泛的适用性,解决了传统OCR系统在复杂布局和多样化文档格式下的性能瓶颈。
局限与展望
GLM-OCR在处理极其复杂的文档布局时,可能仍然面临一定的挑战,尤其是在布局分析阶段。在多语言环境下,模型可能需要进一步的微调以确保高准确性。此外,尽管多标记预测(MTP)机制显著提高了解码效率,但在某些特定场景下可能仍然存在性能瓶颈。
通俗解读 非专业人士也能看懂
想象你在一个大图书馆里,图书馆里有各种各样的书籍和文档。传统的图书管理员需要逐页翻阅每本书,手动记录下每个字和句子。这就像传统的OCR系统,它们需要逐字逐句地识别文本,效率低下。而GLM-OCR就像一个超级智能的图书管理员,它不仅能快速识别每本书的内容,还能同时处理多本书,快速提取出关键信息。它使用一种叫做多标记预测的技术,就像同时用多只手翻阅书页,大大提高了效率。此外,它还能识别书中的复杂结构,比如表格和公式,就像能理解书中的图表和数学公式一样。总之,GLM-OCR就像一个高效的图书管理员,能快速准确地处理大量复杂的文档。
简单解释 像给14岁少年讲一样
嘿,小伙伴们!想象一下你在玩一个超级酷的游戏,你需要快速找到隐藏在地图上的宝藏。传统的方式就像慢慢走遍每个角落,仔细寻找每个线索。而GLM-OCR就像一个超级侦探,它能同时查看多个地图区域,快速找到所有宝藏!它使用一种叫做多标记预测的技术,就像同时用多只手查看地图,大大提高了效率。而且,它还能识别地图上的复杂结构,比如迷宫和陷阱,就像能理解地图上的图表和数学公式一样。总之,GLM-OCR就像一个高效的超级侦探,能快速准确地找到所有隐藏的宝藏!
术语表
多模态模型 (Multimodal Model)
结合多种数据模态(如图像和文本)的模型,能够同时处理和理解多种类型的信息。
GLM-OCR结合了视觉编码器和语言解码器,形成一个多模态模型。
CogViT视觉编码器 (CogViT Visual Encoder)
一种用于图像处理的视觉编码器,能够将图像信息转化为可用于模型处理的特征。
GLM-OCR使用CogViT视觉编码器来处理文档图像。
GLM语言解码器 (GLM Language Decoder)
一种用于文本生成的语言解码器,能够将模型的内部表示转化为自然语言文本。
GLM-OCR使用GLM语言解码器来生成文本输出。
多标记预测 (Multi-Token Prediction, MTP)
一种在每一步预测多个标记的机制,能够提高解码效率和吞吐量。
GLM-OCR引入了多标记预测机制来提高解码效率。
布局分析 (Layout Analysis)
识别文档中不同结构区域的过程,以便进行更精确的内容识别。
GLM-OCR使用PP-DocLayout-V3进行布局分析。
PP-DocLayout-V3
一种用于文档布局分析的工具,能够识别文档中的结构化区域。
GLM-OCR的布局分析阶段由PP-DocLayout-V3支持。
参数共享 (Parameter Sharing)
通过共享模型参数来减少内存开销的一种技术。
GLM-OCR通过参数共享来降低多标记预测的内存开销。
信息提取 (Information Extraction)
从文档中提取关键信息的过程,通常用于结构化数据的生成。
GLM-OCR在信息提取任务中表现出色。
边缘部署 (Edge Deployment)
在资源受限的设备或环境中部署模型的过程。
GLM-OCR适用于资源受限的边缘部署。
大规模生产系统 (Large-scale Production Systems)
能够处理大量数据和高并发请求的系统。
GLM-OCR适用于大规模生产系统。
开放问题 这项研究留下的未解疑问
- 1 尽管GLM-OCR在多种基准上表现出色,但在处理极其复杂的文档布局时可能仍然面临挑战。未来的研究可以探索更先进的布局分析技术,以进一步提高模型的鲁棒性。
- 2 在多语言环境下,GLM-OCR可能需要进一步的微调以确保高准确性。研究可以集中在开发更通用的多语言模型,以提高跨语言的性能。
- 3 尽管多标记预测(MTP)机制显著提高了解码效率,但在某些特定场景下可能仍然存在性能瓶颈。未来的研究可以探索更高效的参数共享机制,以进一步降低计算成本。
- 4 在实际应用中,GLM-OCR可能需要处理更多样化的文档格式和内容。研究可以集中在开发更灵活的模型架构,以适应不断变化的文档需求。
- 5 GLM-OCR在处理手写文本时可能面临一定的挑战。未来的研究可以探索更先进的手写识别技术,以提高模型的准确性。
应用场景
近期应用
文档解析
GLM-OCR可以用于解析复杂的文档布局,提取关键信息,适用于财务报告、合同和科学文章等场景。
文本识别
GLM-OCR在多语言文本识别中表现出色,适用于需要处理多语言内容的企业和组织。
表格结构恢复
GLM-OCR可以准确恢复文档中的表格结构,适用于需要处理大量表格数据的行业,如金融和市场分析。
远期愿景
智能文档管理系统
GLM-OCR可以作为智能文档管理系统的核心组件,帮助企业自动化文档处理流程,提高效率。
多模态信息检索
GLM-OCR可以用于多模态信息检索系统,结合视觉和文本信息,提高信息检索的准确性和效率。
原文摘要
GLM-OCR is an efficient 0.9B-parameter compact multimodal model designed for real-world document understanding. It combines a 0.4B-parameter CogViT visual encoder with a 0.5B-parameter GLM language decoder, achieving a strong balance between computational efficiency and recognition performance. To address the inefficiency of standard autoregressive decoding in deterministic OCR tasks, GLM-OCR introduces a Multi-Token Prediction (MTP) mechanism that predicts multiple tokens per step, significantly improving decoding throughput while keeping memory overhead low through shared parameters. At the system level, a two-stage pipeline is adopted: PP-DocLayout-V3 first performs layout analysis, followed by parallel region-level recognition. Extensive evaluations on public benchmarks and industrial scenarios show that GLM-OCR achieves competitive or state-of-the-art performance in document parsing, text and formula transcription, table structure recovery, and key information extraction. Its compact architecture and structured generation make it suitable for both resource-constrained edge deployment and large-scale production systems.
参考文献 (20)
OCRBench: on the hidden mystery of OCR in large multimodal models
Yuliang Liu, Zhang Li, Mingxin Huang 等
Image-based table recognition: data, model, and evaluation
Xu Zhong, Elaheh Shafieibavani, Antonio Jimeno-Yepes
Efficient Memory Management for Large Language Model Serving with PagedAttention
Woosuk Kwon, Zhuohan Li, Siyuan Zhuang 等
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
Cheng Cui, Ting Sun, Suyin Liang 等
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing
Cheng Cui, Ting Sun, Suyin Liang 等
GLM-5: from Vibe Coding to Agentic Engineering
GLM-4.5 Team Aohan Zeng, Xin Lv, Zhenyu Hou 等
olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models
Jake Poznanski, Jon Borchardt, Jason Dunkelberger 等
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
Jinguo Zhu, Weiyun Wang, Zhe Chen 等
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
Team Glm Aohan Zeng, Bin Xu, Bowen Wang 等
GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
GLM-V Team Wenyi Hong, Wenmeng Yu, Xiaotao Gu 等
Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting
Hao Feng, Shubo Wei, Xiang Fei 等
An Overview of the Tesseract OCR Engine
Raymond W. Smith
MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing
Junbo Niu, Zheng Liu, Zhuangcheng Gu 等
MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm
Zhang Li, Yuliang Liu, Qiang Liu 等
DeepSeek-V3 Technical Report
DeepSeek-AI, A. Liu, B. Feng 等
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
Yuan Liu, Zhongyin Zhao, Le Tian 等
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
Zhihong Shao, Peiyi Wang, Qihao Zhu 等