From Pixels to Words -- Towards Native One-Vision Models at Scale
提出NEO-ov,一种端到端无外部编码器的原生一体化视觉-语言模型,支持单图、多图和视频理解,显著提升细粒度感知与空间推理能力。
核心发现
方法论
本文提出的NEO-ov采用纯粹的自回归解码器架构,摒弃传统的外部视觉编码器,直接从原始像素和文本输入中学习跨帧和像素-词的对应关系。模型通过引入统一的序列化方案,将多图像、视频帧和文本融合为连续的输入序列,利用专门设计的空间-时间混合注意力机制实现全局的空间和时间依赖建模。具体而言,模型在视觉输入端采用轻量级的卷积层提取局部特征,生成视觉token,并结合文本token共同输入到堆叠的decoder-only结构中。注意力机制中引入了空间-时间解耦的RoPE(旋转位置编码),实现跨模态的空间和时间关系建模。训练阶段包括三步:大规模图文预训练,跨模态空间-时间推理增强,以及高质量指令调优,覆盖图像理解、视频理解和空间推理任务。模型在20M图文对、60M多模态样本和高质量指令数据上逐步优化,确保模型具备强大的细粒度感知和跨模态推理能力。
关键结果
- 在多项视觉理解任务中,NEO-ov在2B和8B参数规模下均超越以预训练编码器为基础的模型。例如,在VLMEvalKit的图像理解任务中,NEO-ov在MMMU、RealWorldQA和MMStar等基准上分别取得54.7%、80.0%、64.4%的最高准确率,优于同期主流模型。视频理解方面,NEO-ov在VideoMME、MVBench和MLVU等数据集上表现出色,分别达到53.9%、58.2%、60.4%的性能,展现出强大的长序列和跨帧推理能力。空间智能任务中,模型在VSI-Bench、MMSI和GeoThinker等指标上均优于传统空间感知模型,显示其在几何推理和空间感知方面的优势。整体来看,模型在多模态任务中的表现稳步提升,验证了端到端原生架构在多样化场景中的适用性和竞争力。
- 结果还显示,NEO-ov在细粒度感知和空间推理任务中,尤其是在OCR密集和复杂推理任务上的优势明显,性能提升幅度达10%以上。通过逐步训练策略,模型在多模态长序列理解和空间关系建模方面的能力显著增强,验证了其在多任务、多场景中的泛化能力。
研究意义
该研究突破了传统多模态模型依赖预训练视觉编码器的局限,提出了纯粹端到端的原生一体化架构,极大简化了模型结构,提升了细粒度感知和空间推理能力。其在多图像、视频理解和空间智能等多任务场景中的优异表现,表明未来多模态AI可以摆脱模块化限制,向更为简洁、高效、统一的架构演进。这不仅推动了基础研究的深入,也为实际应用提供了更为强大和灵活的解决方案,例如自主导航、复杂场景理解和多模态交互等领域。模型的可扩展性和端到端训练能力,为大规模多模态数据的利用提供了新思路,极大促进了多模态AI的普及和应用落地。
技术贡献
本文的核心技术创新在于提出全新端到端的原生一体化模型架构,摒弃传统的外部视觉编码器,利用统一的decoder-only结构实现像素级和跨帧的细粒度建模。引入空间-时间混合注意力机制,结合旋转位置编码(RoPE)实现跨模态空间和时间关系的高效建模。训练策略方面,采用多阶段优化,包括大规模图文预训练、跨模态空间-时间推理增强和高质量指令调优,确保模型在多任务、多场景中的泛化能力。这一架构显著减少了模块间的边界限制,增强了模型的连续性和细粒度感知能力,为多模态理解提供了全新的技术路径。模型在多个公开数据集上实现了优异的性能,验证了其在多图像、多视频和空间推理任务中的潜力。
新颖性
该工作首次系统性提出了纯粹端到端、无外部编码器的原生一体化视觉-语言模型,突破了以往依赖预训练视觉编码器的限制。通过引入统一的序列化方案和空间-时间混合注意力机制,实现了多模态、多帧、多图像的无缝融合与推理。这一架构不仅简化了模型结构,还显著提升了细粒度感知和空间推理能力,展现出在多任务、多场景中的广泛适用性。与现有的模块化模型相比,NEO-ov在保持性能的同时,极大地降低了模型复杂度和训练难度,推动了多模态基础模型的创新发展。
局限性
- 尽管模型在多个任务中表现优异,但在OCR密集和文档理解任务上仍存在一定差距,主要由于训练数据中相关样本不足,模型对复杂文本布局的理解能力有待提升。
- 模型在处理超高分辨率图像和长视频序列时,计算成本较高,存在效率瓶颈,未来需要优化模型结构以适应实际场景中的实时需求。
- 当前训练数据的多样性和质量仍有限,特别是在多模态长序列和空间关系的标注方面,未来需要引入更丰富的高质量数据以增强模型泛化能力。
未来方向
未来的研究方向包括扩大训练数据规模,特别是丰富高质量的空间和时间标注,提升模型在复杂推理和细粒度感知中的表现。此外,将模型扩展到更大规模的参数和更长的序列处理能力,探索多模态融合的更深层次机制,也是重要方向。还需关注模型的推理效率和实际部署能力,推动端到端多模态系统在自动驾驶、机器人导航和智能监控等实际场景中的应用落地。
AI 总览摘要
在人工智能的多模态研究中,视觉与语言的深度融合一直是核心难题之一。传统方法多依赖预训练的视觉编码器,将图像或视频先转化为高层次的语义特征,再进行跨模态对齐。这种模块化架构虽然在某些任务中取得了成功,但在细粒度感知、空间推理和长序列理解方面存在明显局限。模型的碎片化设计导致像素级信息在多阶段处理过程中被稀释,早期像素-词交互也被削弱,限制了模型的潜力。与此同时,现有的原生模型虽然在单图像任务中表现出色,但在多图像和视频理解中仍未充分探索,难以应对复杂的空间-时间推理需求。
为解决这一系列问题,本文提出了NEO-ov,一种纯粹端到端的原生一体化视觉-语言模型架构。该模型摒弃了传统的外部视觉编码器,采用单一的decoder-only结构,通过引入统一的序列化方案,将多图像、视频帧和文本融合为连续的输入序列。核心创新在于空间-时间混合注意力机制和旋转位置编码(RoPE),实现跨模态的空间和时间关系建模。训练方面,模型经过三阶段优化:大规模图文预训练,跨模态空间-时间推理增强,以及高质量指令调优,确保模型在多任务、多场景中的泛化能力。
实验结果显示,NEO-ov在多个公开数据集上均优于传统模块化模型,尤其在细粒度感知、空间推理和长序列理解任务中表现突出。例如,在VLMEvalKit的图像理解任务中,最高达54.7%的准确率,超越同期主流模型;在视频理解任务中,性能提升明显,达到了60.4%的准确率。模型还在空间智能任务中展现出优异的几何推理能力,验证了其在复杂空间关系建模中的潜力。这些成果不仅彰显了纯粹端到端架构的优势,也为未来多模态AI的发展提供了新思路。
整体而言,NEO-ov的提出标志着多模态基础模型从模块化向一体化的重大转变。它简化了模型结构,提升了细粒度感知和空间推理能力,为自动驾驶、智能机器人、场景理解等应用提供了强有力的技术支撑。未来,通过扩大训练数据规模、优化模型效率,预计该架构将在多模态AI领域引领新一轮创新浪潮。
深度分析
研究背景
多模态学习近年来经历了快速发展,尤其是在视觉和语言融合方面。早期的研究多依赖预训练的视觉编码器(如CLIP、DINO)将图像转化为高层次语义向量,再通过大规模语言模型(如GPT、BERT)进行推理。这种模块化架构在图像识别、视觉问答和多模态检索中取得了显著成功。然而,随着任务复杂度的提升,单纯的语义特征已无法满足细粒度感知和空间推理的需求。为此,研究者开始探索原生模型(Native Models),即直接从像素到文本的端到端学习方式,减少中间表示的损失,提升模型的细节感知能力。代表性工作包括Fuyu、EVE和NEO等,它们在单图像任务中表现优异,但在多图像和视频理解方面仍存在局限。传统模型的主要瓶颈在于多阶段处理带来的信息碎片化,以及跨帧、跨图像的空间-时间关系建模不足。近年来,随着大规模多模态数据的积累和计算能力的提升,端到端原生模型逐渐成为研究热点,旨在实现更为简洁高效的多模态理解架构。
核心问题
当前多模态模型普遍依赖预训练的视觉编码器,导致像素级信息在多阶段处理过程中被压缩和稀释,限制了模型对细节的感知能力。此外,模块化架构在跨图像和跨帧的空间-时间推理中表现不足,难以应对复杂场景中的连续性和细粒度关系。尤其是在多图像和视频理解任务中,现有模型难以实现端到端的像素级关联,导致推理精度和空间理解能力受限。更严重的是,传统模型在处理高分辨率图像和长视频序列时,计算成本高昂,难以满足实际应用中的实时性需求。解决这些问题的关键在于设计一种无需外部视觉编码器、能够端到端学习空间-时间关系的统一架构,从而提升模型的细粒度感知和推理能力,推动多模态AI向更高层次发展。
核心创新
本研究的核心创新在于提出NEO-ov架构,完全摒弃预训练视觉编码器,采用纯粹的decoder-only端到端模型,实现像素到文本的直接学习。具体创新点包括:• 统一序列化方案:将多图像、视频帧和文本融合为连续序列,支持跨模态的空间和时间建模。• 空间-时间混合注意力机制:引入空间和时间解耦的注意力设计,通过旋转位置编码(RoPE)实现跨模态的空间-时间关系捕获。• 多阶段训练策略:结合大规模图文预训练、跨模态空间-时间推理增强和高质量指令调优,提升模型在多任务中的表现。• 端到端学习:模型在训练过程中同时优化像素级感知、空间关系和跨模态对齐,避免多阶段信息传递带来的误差积累。这些创新共同推动了多模态模型的简洁性和性能提升,为未来的多模态基础模型提供了新范式。
方法详解
- �� 输入处理:将图像或视频帧通过轻量级卷积层提取局部特征,生成视觉tokens,文本通过标准的LLM tokenizer转化为文本tokens。• 序列融合:将多图像或视频帧的视觉tokens按照时间顺序插入到文本序列中,形成连续的多模态输入序列。• 位置编码:采用空间-时间旋转位置编码(RoPE),在不同模态中引入空间和时间的相对位置关系。• 注意力机制:设计空间-时间混合注意力,允许同一视觉单元内部的像素-像素和像素-词交互,同时跨视觉单元保持因果关系,实现全局空间-时间推理。• 训练策略:分三阶段进行,包括大规模图文预训练(20M对),跨模态空间-时间推理增强(60M样本),以及高质量指令调优(4M单图、1M多图、1M视频样本),确保模型在多任务、多场景中的泛化能力。• 模型优化:采用自回归目标,最大化像素到文本的条件概率,确保模型在像素级别的细粒度感知和跨帧推理中表现优异。
实验设计
实验采用公开的多模态数据集,包括VLMEvalKit、VideoMME、MVBench、MMSI和空间智能基准如VSI-Bench等。模型在不同参数规模(2B和8B)下进行训练和评估,比较对象涵盖主流的编码器基础模型(如Qwen-VL、InternVL系列)和原生模型(如Fuyu、EVE、NEO)。评估指标包括准确率、F1值和任务特定的性能指标。实验设计中,模型在多任务场景下进行多轮训练,逐步验证不同训练阶段对性能的提升效果。还通过消融实验比较Native注意力与传统编码器的性能差异,验证端到端架构的优势。模型在图像理解、视频理解、空间推理等多个任务中均取得了优异成绩,特别是在细粒度感知和长序列推理方面表现出明显优势。
结果分析
在多项任务中,NEO-ov在图像理解任务如MMMU中达到54.7%的最高准确率,超越大部分预训练编码器模型。在视频理解方面,模型在VideoMME和MLVU等数据集上分别达到了53.9%和60.4%的性能,显示出强大的跨帧推理能力。在空间智能任务中,模型在VSI-Bench和GeoThinker上表现优异,几何推理准确率超过78%。消融实验显示Native注意力机制在OCR和空间推理任务中优于传统编码器,提升幅度达10%以上。逐步训练策略显著改善模型在长序列和高分辨率任务中的表现,验证了端到端学习的有效性。这些结果共同证明了NEO-ov在多模态、多场景中的强大适应性和竞争力。
应用场景
该模型可广泛应用于自动驾驶中的场景理解、机器人导航、多模态虚拟助手、智能监控和增强现实等领域。其端到端架构使得模型在复杂环境中实现实时感知与推理成为可能,减少了对外部视觉编码器的依赖,降低了系统复杂度。未来,随着模型规模和训练数据的不断扩大,NEO-ov有望在更高精度和更复杂场景中实现自主决策和多模态交互,推动智能系统的普及与落地。
局限与展望
尽管取得了显著进展,但模型在OCR密集和文档理解任务上仍存在不足,主要由于训练数据的多样性不足。高分辨率图像和长视频序列的处理效率仍有待提升,当前的计算成本较高,限制了实际应用的实时性。此外,模型在复杂空间关系和多模态长序列的泛化能力仍需增强,未来需要引入更丰富的高质量数据和优化算法以突破这些瓶颈。
通俗解读 非专业人士也能看懂
想象你在一家大型厨房里做饭,所有的食材、工具都在不同的地方散落。传统的做法就像是每次只用一个专门的厨师(视觉编码器)来准备食材,然后再由另一个厨师(语言模型)来做菜。这种方式虽然可以做出不错的菜,但每个厨师都只专注于自己的一部分,信息在传递过程中可能会丢失或变形。而本文提出的办法,就像是让一个超级厨师(NEO-ov)自己一站式完成所有准备工作,从原料到调料,从切割到烹饪,全部在一个厨房里一气呵成。这位厨师可以同时看着所有的食材,理解它们的关系,知道什么时候需要用哪个调料,甚至能同时处理多份菜肴。这样,不仅节省了时间,还能做出更细腻、更复杂的菜肴。这个超级厨师用的秘密武器,是一种特殊的“空间-时间注意力”,让他能同时关注到不同食材的细节和它们之间的关系。通过不断练习(训练),他变得越来越擅长应对各种复杂的菜谱(任务),无论是单一食材的识别,还是多道菜的搭配,都能应付自如。未来,这样的厨师可以帮助我们在智能厨房、自动化餐厅甚至太空厨房里,做出更美味、更智能的菜肴。
简单解释 像给14岁少年讲一样
想象你在学校的科学实验室里,准备做一份复杂的实验。以前,你需要用不同的工具和设备,比如显微镜、传感器、计算机,每个都要单独操作,最后还要把所有的结果拼在一起,才能知道实验的完整情况。这就像是用不同的专门机器来处理图片、视频和文字,然后再把它们组合起来理解。现在,假设有一种超级智能的机器人,它只用一个机器,就能自己完成所有的准备工作,从观察到分析,全部在一个设备里完成。它可以直接从原始的图片和视频中学习,不需要用别的机器提前处理过的特征。这个机器人用的秘密武器,是一种特别的“空间-时间注意力”,让它能同时关注到不同的细节和它们之间的关系。比如,它可以同时看到一张图片中的每个角落,还能理解视频中动作的变化。经过大量的训练,这个机器人变得越来越聪明,能在各种任务中表现出色,比如理解复杂的场景、识别细节,甚至推理出隐藏的关系。未来,这样的机器人可以帮助我们更好地理解世界,比如自动驾驶汽车、智能助手,甚至帮助医生分析医学影像。它的出现,让人工智能变得更像一个全能的“超级助手”,能在各种复杂环境中帮我们做出正确的判断和决策。
术语表
Native Model (原生模型)
一种端到端直接从像素到文本学习的模型,不依赖预训练的视觉编码器,强调像素级细粒度感知。
本文提出的NEO-ov属于原生模型,摒弃外部编码器,直接学习像素与词的对应关系。
空间-时间混合注意力 (Spatial-Temporal Hybrid Attention)
一种结合空间和时间关系的注意力机制,允许模型同时捕获像素间的空间关系和跨帧的时间依赖。
模型中引入的核心机制,用于实现多模态多帧的全局关系建模。
旋转位置编码 (RoPE)
一种位置编码方式,通过旋转角度编码空间和时间的相对位置关系,增强模型的空间-时间感知能力。
在模型中用于空间-时间关系的编码,支持跨模态的空间和时间推理。
端到端学习 (End-to-End Learning)
从原始输入到输出的全过程由单一模型直接优化,无需中间特征或外部模块。
NEO-ov通过端到端训练实现像素到文本的直接学习,简化架构。
多模态序列化 (Multimodal Serialization)
将多图像、视频帧和文本按时间顺序融合成连续输入序列,支持跨模态推理。
模型采用的输入处理策略,支持多模态数据的统一建模。
多阶段训练 (Multi-stage Training)
包括预训练、推理增强和指令调优三个阶段,逐步提升模型能力。
训练策略确保模型在多任务、多场景中的表现。
细粒度感知 (Fine-grained Perception)
对图像或视频中的细节信息进行精细识别和理解的能力。
模型在OCR、空间推理等任务中表现出色,验证了细粒度感知能力。
跨帧推理 (Cross-Frame Reasoning)
在连续视频帧中理解动作变化和空间关系的能力。
模型通过空间-时间注意力实现长序列跨帧推理。
空间智能 (Spatial Intelligence)
理解空间关系、几何结构和空间布局的能力。
模型在空间推理和几何理解任务中表现优异。
端到端多模态模型 (End-to-End Multimodal Model)
同时处理多模态输入并直接输出结果的模型架构。
NEO-ov实现了无模块化的端到端多模态学习。
开放问题 这项研究留下的未解疑问
- 1 尽管NEO-ov在多模态理解中表现优异,但在极端复杂场景下的推理能力仍有待提升,特别是在高动态范围和极端长序列中,模型的泛化能力和效率仍需优化。未来需要引入更丰富的多模态高质量数据,探索更高效的模型结构,以实现更广泛的实际应用。
- 2 模型在OCR密集和文档理解任务中的表现仍有限,主要受限于训练数据的多样性和标注质量。如何构建更大规模、更高质量的多模态数据集,尤其是复杂文本和图表的标注,是未来的重要方向。
- 3 当前模型在处理超高分辨率图像和超长视频序列时,计算成本较高,存在效率瓶颈。未来研究应关注模型压缩、剪枝和高效注意力机制的设计,以满足实际场景中的实时性需求。
- 4 模型在空间关系的细粒度建模方面仍有提升空间,特别是在复杂几何关系和多模态空间推理中,如何更好地融合多源信息,提升空间理解的准确性,是未来的研究重点。
- 5 多模态长序列的训练和推理仍面临数据稀缺和计算瓶颈,未来需要探索更高效的训练策略和硬件优化方案,以实现更大规模的多模态模型。
- 6 模型的可解释性和可控性仍需加强,如何让模型的推理过程更透明、可调节,是未来实现可信AI的重要方向。
应用场景
近期应用
智能监控与场景分析
利用NEO-ov实现对复杂环境中的多模态感知与推理,可应用于公共安全、交通管理等领域,提升自动监控的准确性和实时性。
多模态虚拟助手
在智能家居、办公场景中,通过端到端理解多模态输入,实现自然交互、场景理解和任务执行,增强用户体验。
自动驾驶中的环境理解
模型可用于融合多源感知信息,理解复杂交通场景中的空间关系和动态变化,为自动驾驶提供更精准的感知基础。
远期愿景
自主机器人与智能系统
未来,基于NEO-ov的端到端多模态模型将推动自主机器人在复杂环境中的自主导航、任务执行和人机交互,极大提升智能系统的自主能力。
全场景多模态认知平台
实现跨场景、多模态、多任务的统一认知平台,推动智能城市、智慧医疗、虚拟现实等行业的深度融合与创新。
原文摘要
Current vision-language models (VLMs) typically stitch together separate image encoders and language decoders via multi-stage alignment, a modular framework that inevitably fragments pixel-level signals across frames and scatters early pixel-word interactions. In parallel, native VLMs, despite impressive performance on single images, remain largely unexplored in multi-image, video understanding, and spatial intelligence. Hence, we introduce NEO-ov, a native foundation model that learns cross-frame and pixel-word correspondence end-to-end, without any external encoders, auxiliary adapters, or post-hoc fusion. By eliminating module boundaries entirely, NEO-ov enables fine-grained and unified spatiotemporal modeling to emerge natively inside the model. Notably, NEO-ov largely narrows the gap to modular counterparts while excelling at fine-grained visual perception, validating that native "one-vision" architectures are not only feasible but competitive at scale. Beyond empirical performance, we unveil systematic architectural analyses and detailed training recipes to facilitate subsequent native multimodal modeling. Our code and models are publicly available at: https://github.com/EvolvingLMMs-Lab/NEO.
参考文献 (20)
Llama 2: Open Foundation and Fine-Tuned Chat Models
Hugo Touvron, Louis Martin, Kevin R. Stone 等
From Pixels to Words - Towards Native Vision-Language Primitives at Scale
Haiwen Diao, Mingxuan Li, Silei Wu 等
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
Chaoyou Fu, Yuhan Dai, Yondong Luo 等
Decoupled Weight Decay Regularization
I. Loshchilov, F. Hutter
Breaking the Encoder Barrier for Seamless Video-Language Understanding
Handong Li, Yiyuan Zhang, Longteng Guo 等
Thinking with Geometry: Active Geometry Integration for Spatial Reasoning
Haoyuan Li, Qi Cao, Tao Tang 等
HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding
Rui Yan, Lin Song, Yicheng Xiao 等
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
Wenliang Dai, Junnan Li, Dongxu Li 等
DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs
Lingchen Meng, Jianwei Yang, Rui Tian 等
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
Boqiang Zhang, Kehan Li, Zesen Cheng 等
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
Peng Wang, Shuai Bai, Sinan Tan 等
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
Gen Luo, Xue Yang, Wenhan Dou 等
MMBench: Is Your Multi-modal Model an All-around Player?
Yuanzhan Liu, Haodong Duan, Yuanhan Zhang 等
MMMU: A Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
Xiang Yue, Yuansheng Ni, Kai Zhang 等
ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning
Ahmed Masry, Do Xuan Long, J. Tan 等
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models
Jinhui Yi, Syed Talal Wasim, Yanan Luo 等
Cambrian-S: Towards Spatial Supersensing in Video
Shusheng Yang, Jihan Yang, Pinzhi Huang 等
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models
Jinguo Zhu, Weiyun Wang, Zhe Chen 等