POTATR: A Lightweight Image-to-Graph Model for Page-Level Table Extraction

TL;DR

POTATR为一款29M参数的轻量级图像到图结构模型，显著提升页面级表格提取的效率与准确率。

cs.CV 🔴 高级 2026-06-09 64 次浏览

Brandon Smock Libin Liang Max Sokolov Amrit Ramesh Valerie Faucon-Morin Tayyibah Khanam Maury Courtland

文档理解表格提取深度学习模型压缩图神经网络

核心发现

方法论

POTATR基于扩展的TATR架构，采用Transformer编码器-解码器结构，通过预训练的表结构识别模型（TSR）初始化，结合关系头预测表格元素间的层级关系。模型将页面图像作为输入，输出空间定位的元素边界框和层级关系图，利用多类别分类和边关系预测实现结构化信息的提取。其核心机制包括：• 采用全自注意力机制增强特征表达；• 增加页面级对象类别（如标题、脚注、旋转表格）以适应复杂页面场景；• 关系头利用MLP预测元素间的有向边，形成层次化图结构。模型训练在PubTables-v2数据集上进行，结合多阶段微调策略，充分利用预训练权重，显著提升结构识别性能。

关键结果

在PubTables-v2单页子集上，POTATR实现GriTSCon指标0.964，超越所有对比模型，包括最先进的多模态大模型（MLLMs），同时推理速度提升130倍以上，成本降低300倍，显示出极高的效率与精度平衡。
在结合外部OCR（如EasyOCR、PaddleOCR、docTR）后，结构识别的F1得分达到0.979，表格结构识别与文本提取的结合效果优异，验证了模型的实用性和扩展性。
模型的空间定位能力使得每个识别元素都具有边界框，支持可视化验证和几何文本匹配，为后续的多页合并和扫描文档处理提供基础。

研究意义

该研究突破了传统依赖庞大参数和逐步自回归生成的局限，提出了高效、端到端的页面级表格提取方案。模型的轻量化设计（29M参数）极大降低了部署门槛，为大规模文档处理提供了可行路径。其空间定位与关系预测能力，增强了模型的可解释性和可验证性，为自动化文档分析、信息抽取、数字化转型带来了深远影响。特别是在扫描文档和多页表格场景中，模型的模块化设计使得系统集成和扩展变得更加便捷，有望推动行业标准的制定与应用普及。

技术贡献

本研究的技术创新主要体现在：• 将TATR架构扩展到页面级，加入页面特定类别和关系头，实现全页面的结构化预测；• 引入空间边界框信息，增强模型的空间定位能力，支持视觉验证；• 采用全自注意力机制和多类别分类，提升特征表达能力；• 利用预训练TSR模型初始化，有效缩短训练时间并提升性能；• 设计关系头预测有向边，形成层次化图结构，支持多层级关系推断。这些创新使得模型在保持高效的同时，具备更强的结构理解能力。

新颖性

本研究的核心创新在于：首次将轻量级Transformer模型应用于全页面结构化表格提取，结合空间定位与关系预测，突破了传统方法对大规模参数和逐步推理的依赖。相较于现有的Relationformer和EGTR，POTATR利用预训练模型，简化关系头设计，显著提升性能和推理速度。其空间定位能力和层次关系预测的结合，为文档理解提供了全新的视角，开启了端到端、低成本、高精度的页面级表格提取新路径。

局限性

模型目前在PubMed科学文章数据集上训练，泛化到其他文档类型（如法律、财务）和多语言场景尚未验证，存在一定局限。
对多页跨页表格的处理能力有限，尚未优化多页表格的跨页合并与识别，未来需结合跨页信息融合技术。
在极端复杂页面（如多重旋转、多层嵌套）场景中，模型的鲁棒性和准确性仍需提升，尤其是在低质量扫描文档中表现尚待验证。

未来方向

未来将致力于：• 扩展模型对多页、多模态和多语言场景的适应能力；• 融合跨页信息，提升多页表格的整体识别性能；• 引入更强的预训练策略和多任务学习，增强模型的泛化能力；• 优化推理速度和模型压缩技术，适应边缘设备部署；• 开发可解释性机制，增强模型的可调试性和用户信任度。

AI 总览摘要

在数字化和信息化快速发展的今天，海量文档的自动化处理成为信息管理的重要环节。表格作为结构化信息的重要载体，其提取的效率与准确性直接影响到后续的数据分析和决策支持。传统的表格提取方法多依赖于规则或手工特征，难以应对复杂页面布局和多样化的表格类型。近年来，深度学习技术，尤其是基于Transformer的模型，带来了突破性进展，但大规模参数和高昂的计算成本限制了其实际应用。

为解决这一难题，Brandon Smock等人提出了POTATR（Page-Object Table Transformer），一种轻量级的29M参数模型，专为页面级表格提取设计。该模型在保持高精度的同时，大幅提升了推理速度和降低了成本。核心思想是将传统的逐步自回归文本生成转变为平行的空间图预测，通过关系头预测元素间的层级关系，形成空间定位与结构关系的结合，为复杂页面中的表格结构识别提供了全新的解决方案。

POTATR的设计充分利用预训练的TSR模型（表结构识别模型）作为初始化，结合空间边界框和关系预测，实现了对页面中多类别元素（如标题、脚注、旋转表格等）的高效检测与关系建模。在PubTables-v2数据集上的实验结果显示，模型达到了GriTSCon指标0.964，超越所有对比模型，包括最先进的多模态大模型（MLLMs），且推理速度提升130倍，成本降低300倍，展现出极佳的实用性和推广潜力。

此外，模型的空间定位能力使得每个识别元素都具有边界框，支持可视化验证和几何文本匹配，为后续的多页合并和扫描文档处理提供基础。其模块化设计允许与其他模型无缝集成，极大地增强了系统的灵活性和扩展性。未来，作者计划将模型推广到多语言、多模态、多页场景，结合跨页信息融合技术，推动文档理解的智能化升级。整体而言，POTATR代表了在高效、低成本、结构化信息提取方面的重要突破，为大规模文档自动化处理提供了新的技术路径。

深度分析

研究背景

随着数字文档的普及，自动化的表格提取技术成为信息处理的关键环节。早期方法多依赖规则和模板，难以适应多样化的页面布局。近年来，深度学习模型，尤其是卷积神经网络（CNN）和Transformer架构，推动了表格检测与结构识别的发展。代表性工作包括TabNet、Graph Neural Networks（GNNs）在表格结构建模中的应用，以及基于DETR的表格检测模型（如TATR）实现端到端的结构识别。尽管如此，这些模型普遍参数庞大，推理速度慢，难以满足大规模应用需求。多模态大模型（MLLMs）如GPT-4、Qwen等，虽然在理解复杂页面方面表现优异，但其高昂的计算成本限制了部署规模。传统方法在效率和精度之间难以兼顾，亟需一种兼具高效性和准确性的解决方案。

核心问题

当前的页面级表格提取面临多重挑战：一是复杂页面布局和多样化的表格类型增加了检测难度；二是高参数模型虽具强大能力，但推理成本过高，难以大规模部署；三是缺乏空间定位信息，导致结构识别的可解释性不足。尤其是在扫描文档和多页场景中，传统模型的效率瓶颈尤为突出，限制了其实际应用范围。如何在保证高精度的同时，实现低成本、高速的页面级表格提取，成为行业亟待解决的问题。

核心创新

本研究的创新点主要体现在：• 将基于DETR的TATR模型扩展到页面级，加入页面特定类别（如标题、脚注）和关系头，实现全页面的结构化预测；• 引入空间边界框信息，使模型输出具有空间定位能力，便于可视化验证和几何文本匹配；• 采用全自注意力机制增强特征表达，提升模型对复杂页面的适应性；• 利用预训练TSR模型作为初始化，显著缩短训练时间并提升性能；• 设计关系头预测元素间的有向边，形成层次化图结构，支持多层级关系推断。这些创新使得模型在保持轻量级的同时，具备强大的结构理解能力，突破了传统方法的瓶颈。

方法详解

�� 输入：页面图像经过卷积特征提取（ResNet-50作为骨干网络）后，得到高层次特征图；• 编码：Transformer编码器对特征进行全局建模，增强特征表达能力；• 目标查询：定义250个对象查询（包括新增类别和旋转类别），每个查询对应潜在的页面元素；• 解码：Transformer解码器利用目标查询生成元素边界框和类别预测，输出空间定位信息；• 关系预测：关系头对解码器输出的元素特征进行MLP分类，预测元素间的有向边，形成层次化图结构；• 训练：采用多任务损失，包括边界框回归、类别分类和关系边预测，结合预训练TSR模型参数，利用多阶段微调策略优化模型性能。

实验设计

模型在PubTables-v2数据集上进行训练和评估，数据集包括单页和多页场景，涵盖多样化的表格类型。训练采用多阶段策略，第一阶段在单页数据上训练100轮，第二阶段加入多页和无表格页面，进行35轮微调。评估指标包括GriTSCon、F1、边关系F1等，采用Hungarian匹配算法进行多表匹配。对比模型包括Relationformer、EGTR和多模态大模型（MLLMs），在推理速度、成本和准确率方面进行全面比较。模型超参数如学习率、批次大小等均参考TATR预训练设置，确保公平性。

结果分析

在PubTables-v2单页子集上，POTATR实现GriTSCon 0.964，远超Relationformer（0.852）和EGTR（0.850），边关系F1达0.746，验证了关系预测的有效性。推理速度方面，模型每秒处理超过52,000页，远优于最先进的MLLMs（如Gemini 3.1 Pro，393页/小时）。成本方面，模型每百万页成本低于50美元，远低于API调用的MLLMs。结合外部OCR后，结构识别F1达0.979，显示出极高的实用性。模型在多场景、多类型页面中表现稳定，验证了其广泛适用性。

应用场景

该模型适用于大规模文档自动化处理场景，如企业文档管理、数字化档案、财务报表分析和科研文献整理。其空间定位能力支持可视化验证和后续的多页合并，便于实现全局结构化信息提取。模型的高效率和低成本，使得在边缘设备和云端部署成为可能，满足不同应用场景的需求。未来结合OCR和多模态信息融合技术，有望实现全自动、多模态、多页的复杂文档理解，推动智能文档分析的行业升级。

局限与展望

目前模型主要在英文科学文章数据集上训练，泛化到其他语言和文档类型（如法律、财务）尚需验证。多页跨页表格的识别能力有限，跨页信息融合和多页合并技术仍待优化。在极端复杂页面（如多重旋转、多层嵌套）场景中表现尚不理想，尤其在低质量扫描件中鲁棒性不足。此外，模型虽轻量，但在极大规模应用中仍需进一步压缩和优化以适应边缘设备。未来应关注多模态、多语言、多页场景的泛化能力和鲁棒性提升。

通俗解读非专业人士也能看懂

想象你在一家大型工厂里工作，工厂里有许多不同的机器和工人，他们需要合作完成一项复杂的任务。每个机器代表一个页面上的元素，比如标题、表格、脚注等，而工人之间的合作关系代表元素之间的层级关系。传统的方法就像让每个工人单独工作，逐个检查每个元素，效率很低，而且容易出错。

现在，POTATR就像是一位聪明的工厂调度员，他能同时看到所有机器和工人，快速识别每个元素的位置和类别，还能判断哪些元素属于同一组，哪些是上下级关系。这位调度员用了一套特别的“地图”和“指挥系统”，让所有元素都在空间中有明确的位置和关系，方便检查和调整。

这个系统的最大优点是速度快、成本低，而且可以处理各种复杂的页面布局。它不像以前那样需要大量的计算资源，也不需要逐个元素地处理，而是用一套智能的“导航图”同时识别所有元素和它们的关系。这样，无论是扫描的纸质文件还是电子文档，都能被快速、准确地整理成结构化的数据，帮助企业和研究人员更好地利用信息。

简单解释像给14岁少年讲一样

想象你在学校的图书馆里，有很多书架上堆满了书。每本书代表一个页面上的元素，比如标题、图片、表格等。以前，要找到每个元素的位置和内容，就像用放大镜一页页仔细看，非常费时费力。

现在，有一种神奇的机器人助手，它可以一眼看到整个书架，快速标出每个元素的位置，还能知道哪些元素属于同一本书，哪些是章节标题、脚注等。这个机器人用了一种特别的“地图”和“关系网”，让它能同时识别所有元素，并理解它们之间的关系。

这个机器人助手不仅快，还很聪明，能帮你整理出整本书的结构，让你一目了然。它的秘密在于：它用一种叫做“Transformer”的技术，把所有信息都放在一个大脑里，一次性处理完所有内容，然后告诉你每个元素在哪里、属于谁、怎么联系在一起。这就像你用一张超级详细的地图，快速找到所有重要的点，节省了很多时间，也让工作变得轻松多了。

原文摘要

Large-scale document processing requires contextually aware table extraction (TE) that is both accurate and efficient. Yet current approaches require billions of parameters, hundreds of autoregressive steps, or costly API inference. Motivated by this, we introduce the Page-Object Table Transformer (POTATR), a lightweight 29M parameter image-to-graph model that extends the Table Transformer (TATR) for contextualized page-level TE. POTATR outperforms all models tested on the PubTables-v2 Single Pages benchmark -- including frontier MLLMs -- achieving $\textrm{GriTS}_\textrm{Con}$ of 0.964 while running over 130$\times$ faster at roughly 300$\times$ lower cost. Further, POTATR's output is spatially grounded: every recognized element has a bounding box, enabling visual verification and geometric text assignment. As a result, POTATR performs unified page-level TE while composing with other models, enabling extension to scanned documents via external OCR and to full-document TE via techniques like cross-page merging. Code and models will be released.

cs.CV

POTATR: A Lightweight Image-to-Graph Model for Page-Level Table Extraction

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样