Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration

核心发现

方法论

本文提出了一种结合持久性3D世界模型与带有情节记忆的Transformer策略的好奇心驱动探索框架。核心在于使用在线3D高斯点云重建（3DGS）作为持久且动态更新的世界模型，提供稳定的预测误差作为内在奖励，避免了传统方法中因短期记忆导致的局部循环问题。策略网络基于RGB图像序列输入，利用Transformer的因果时序自注意力和全局线性注意力模块，维持长时序记忆，实现对历史轨迹的编码。训练时结合PPO算法和随机动作混合策略，保障探索多样性。该设计使得训练阶段利用RGB-D和相机位姿信息构建3DGS模型，而部署阶段仅依赖RGB输入，提升泛化能力和实用性。

关键结果

在HM3D数据集上，本文方法在1024步时实现了74.94%的3D场景覆盖率，较基线OccAnt-RGBD提升约0.3个百分点，且平均点到观测点距离降至0.14cm，显示出更全面和精细的探索能力。
零样本泛化测试中，模型在Gibson数据集和AI生成的Hobbit World及Spaceship场景中均表现出稳定的探索行为，碰撞次数极少，证明了策略的强泛化性和鲁棒性。
消融实验表明，持久性3DGS世界模型和Transformer长时序记忆均显著提升探索效果。短期记忆版本导致局部循环，RNN和无记忆策略均表现较差，凸显了持久空间模型与情节记忆的协同作用。

研究意义

本研究突破了好奇心驱动强化学习在复杂、光照真实的3D环境中面临的局部循环和奖励欺骗难题，提出了结合持久空间模型与长时序策略的创新框架，显著提升了稀疏奖励任务中的探索效率。该方法不仅在标准数据集上表现优异，还实现了零样本泛化，推动了自主智能体在现实世界复杂环境中的应用潜力。此外，纯RGB输入的设计降低了部署门槛，促进了机器人导航和视觉任务的实用化。

技术贡献

技术上，本文首次将在线3D高斯点云重建（3DGS）作为持久世界模型引入好奇心驱动探索，解决了动态环境中空间一致性和记忆持久性问题。策略网络采用Transformer结构，结合因果时序自注意力与全局线性注意力，实现了长时序情节记忆的高效编码，突破了传统RNN的短期记忆瓶颈。训练中引入随机动作混合策略，保证探索多样性，避免奖励稀疏导致的策略退化。整体实现了端到端纯视觉输入的探索策略，兼顾训练效率与部署灵活性。

新颖性

本文创新地将持久的3DGS重建与基于Transformer的序列策略结合，首次系统性地解决了好奇心驱动探索中因缺乏空间持久性和情节上下文导致的局部循环问题。相较于传统基于统计先验的世界模型（如ICM），3DGS提供了精确的空间一致性和动态更新能力。此外，策略端不依赖深度或显式地图，纯RGB输入实现了更广泛的任务适应性和泛化能力，开辟了新型视觉探索范式。

局限性

当前方法依赖静态场景假设，难以直接扩展到动态或高度变化的环境，限制了在真实动态场景中的应用。
3DGS模型的计算开销较大，尤其在大规模场景中实时更新和渲染可能成为瓶颈，影响训练和部署效率。
策略虽然纯RGB输入，但训练阶段仍需深度和位姿信息，增加了训练环境的复杂度和对传感器的依赖。

未来方向

未来工作可聚焦于扩展持久世界模型以支持动态场景中的变化检测与建模，提升模型对环境变化的适应性。同时，优化3DGS的计算效率，探索轻量级空间持久模型以适应资源受限设备。此外，减少训练阶段对深度和位姿的依赖，实现完全基于RGB的自监督训练，将进一步提升方法的通用性和实用性。

AI 总览摘要

在稀疏奖励和长时任务中，智能体的有效探索是实现自主学习的关键，尤其是在复杂的3D环境中。传统的好奇心驱动强化学习通过内在奖励激励智能体探索未知区域，但在光照真实的环境中，智能体往往陷入局部循环，反复访问已知状态，导致奖励信号失效。本文针对这一难题，提出了一种结合持久空间模型与情节记忆的好奇心驱动探索框架。

该方法利用在线3D高斯点云重建（3DGS）构建持久且动态更新的世界模型，确保空间信息的连续性和一致性。策略网络采用基于Transformer的序列模型，输入为RGB图像序列，维持长时序的情节记忆，使智能体能够基于历史轨迹规划前往新颖区域。训练时结合PPO算法和随机动作混合策略，保障探索的多样性和稳定性。部署阶段仅依赖RGB输入，提升了实际应用的灵活性。

实验在Habitat Matterport 3D（HM3D）数据集上进行，结果显示本文方法在1024步时实现了74.94%的3D场景覆盖率，显著优于基线方法。零样本泛化测试中，智能体在Gibson和AI生成的场景中表现出良好的探索能力和低碰撞率。消融研究进一步验证了持久世界模型和Transformer情节记忆对探索性能的关键作用。

此外，预训练的探索策略通过少量微调即可适应下游任务，如苹果采摘和图像目标导航，表现优于从零训练的基线，体现了良好的迁移能力。该研究不仅推动了好奇心驱动探索在复杂3D环境中的应用，也为机器人导航和视觉任务提供了新的思路和工具。

尽管如此，方法仍存在对静态场景的依赖和较高计算开销等局限。未来工作将聚焦于动态环境的建模、计算效率优化及训练阶段传感器依赖的降低，期待进一步提升智能体的自主探索能力和实用性。本文为好奇心驱动的3D探索研究提供了重要的理论和实践基础，具有广泛的学术价值和应用前景。

深度分析

研究背景

探索行为是智能体学习有用行为的前提，尤其在稀疏奖励和长时任务中更为关键。早期心理学家Edward Tolman的潜伏学习实验表明，动物能在无明确奖励情况下积累环境知识，体现了内在的好奇心驱动力。近年来，强化学习领域引入好奇心驱动机制，通过预测误差作为内在奖励，激励智能体探索未知状态。典型方法如ICM（Intrinsic Curiosity Module）利用前向动力学模型预测环境反馈，误差越大奖励越高。然而，这些方法在复杂、光照真实的3D环境中面临挑战，智能体容易陷入局部循环，反复访问已知区域，导致奖励信号失效。

同时，现有方法多依赖短期记忆或统计先验，缺乏对空间信息的持久建模，无法有效利用历史轨迹规划长时探索。部分研究采用显式几何地图辅助导航，但这限制了策略的端到端学习能力和语义信息的利用，降低了泛化能力。随着3D重建技术的发展，在线3D高斯点云重建（3DGS）等方法提供了高效且空间一致的场景表示，为持久世界模型的构建提供了可能。

本文基于此背景，提出结合持久3DGS世界模型和基于Transformer的情节记忆策略，旨在解决传统好奇心驱动探索的局部循环和奖励欺骗问题，实现复杂3D环境中的高效自主探索。

核心问题

核心问题在于如何在复杂、光照真实的3D环境中实现有效的好奇心驱动探索。具体瓶颈包括：

1. 缺乏持久的空间世界模型，导致智能体对已访问区域的记忆短暂，重复访问产生虚假新颖奖励，陷入局部循环。

2. 策略缺乏长时序的情节记忆，无法基于历史轨迹规划前往未探索区域，限制了探索的深度和广度。

3. 现有方法多依赖深度传感器或显式地图，增加部署复杂度，且限制了策略对语义信息的利用和泛化能力。

4. 稀疏奖励环境中，探索行为易退化，缺乏多样性，难以持续发现新区域。

解决上述问题对于实现自主智能体在真实世界中的长期自主导航和任务执行具有重要意义，但技术难度大，涉及空间建模、序列策略设计及训练稳定性保障等多方面挑战。

核心创新

本文的核心创新包括：

1. 持久世界模型：首次将在线3D高斯点云重建（3DGS）作为持久且动态更新的世界模型引入好奇心驱动探索，确保空间信息的连续性和一致性，避免传统统计先验模型的空间遗忘问题。

2. Transformer序列策略：设计基于Transformer的策略网络，输入为RGB图像和动作序列，结合因果时序自注意力和全局线性注意力模块，实现长时序情节记忆编码，支持复杂的长时探索行为如回溯和分支发现。

3. 纯RGB部署：训练阶段利用RGB-D和相机位姿构建3DGS模型，部署阶段仅依赖RGB输入，提升了策略的泛化能力和实际应用灵活性。

4. 探索多样性保障：引入随机动作混合策略，结合PPO训练，解决稀疏奖励环境中探索退化问题，促进智能体持续发现新颖区域。

这些创新共同解决了好奇心驱动探索中空间持久性和情节上下文缺失的双重难题，推动了复杂3D环境中自主探索的研究进展。

方法详解

�� 问题设定：智能体在静态3D环境中通过动作at移动，接收RGB图像观测ot+1，训练时可用深度图和相机位姿，测试时仅用RGB。

�� 持久3D前向模型：利用在线3D高斯点云重建（3DGS）构建持久世界模型Gt，连续融合RGB-D帧和相机位姿，动态优化和稠密化场景表示。

�� 好奇心奖励设计：通过3DGS渲染预测视图ˆIt+1，与真实观测It+1低通滤波后计算预测误差et，误差超过阈值τ给予新颖奖励rnew，反之给予小惩罚rold，驱动智能体探索未见区域。

�� 策略网络架构：输入为过去t步的RGB图像和动作序列，动作编码为Plücker射线图像，与RGB拼接形成统一输入。

�� 图像编码：使用卷积编码器提取图像特征，结合DINOv2视觉特征，通过可学习查询token进行交叉注意力融合，生成帧级token。

�� 时序建模：采用滑动窗口因果自注意力捕获局部时序信息，交替使用全局线性注意力模块维护全局记忆状态，支持长时情节记忆。

�� 输出层：策略头和价值头分别输出动作概率分布πθ和状态价值估计Vθ，动作采样用于环境交互。

�� 训练策略：采用PPO算法，奖励仅为好奇心奖励。训练中以概率β混合随机动作，保证探索多样性，β随训练逐渐衰减至零。

�� 部署阶段：仅使用RGB输入和策略网络，无需深度或显式地图，实现端到端视觉导航。

实验设计

�� 数据集与环境：训练在Habitat Matterport 3D（HM3D）训练集（800场景）进行，测试在HM3D验证集（100场景）、Gibson数据集（86场景）及AI生成的Hobbit World和Spaceship场景零样本泛化测试。

�� 基线方法：比较了ANS [7]、OccAnt [8]等基于地图的RL方法，涵盖RGB、深度及RGB-D输入变体。

�� 评估指标：使用3D场景覆盖率（Completeness）和平均点到观测点距离，分别在256、512、1024步时测量。

�� 消融实验：独立评估持久世界模型（3DGS vs ICM）、策略记忆容量（Transformer不同上下文长度及RNN）、记忆对称性等因素对探索性能的影响。

�� 下游任务微调：在苹果采摘和图像目标导航任务上，比较预训练策略微调与从零训练策略的表现，验证迁移能力。

�� 训练细节：采用Adam优化器，学习率1e-5，训练110M步，随机动作混合策略从20%逐渐衰减，动作空间包括前进、左右转和暂停，环境中模拟球形无人机自由移动。

结果分析

�� 在HM3D测试集，本文方法在1024步时实现74.94%的3D覆盖率，优于OccAnt-RGBD的74.62%，平均点距离0.14cm，显示更全面的场景探索。

�� 在Gibson数据集，覆盖率达82.42%，同样领先基线，证明了跨数据集的泛化能力。

�� 零样本泛化至AI生成场景，智能体表现出连贯探索行为，碰撞次数极少，表明策略对不同渲染和场景结构的适应性。

�� 消融显示持久3DGS模型显著提升探索效果，短期记忆版本导致局部循环，Transformer长时记忆优于RNN。

�� 下游任务微调中，预训练策略在苹果采摘和图像导航任务上均优于从零训练，尤其在奖励稀疏时优势明显，体现探索预训练的迁移价值。

应用场景

本方法适用于机器人自主导航、室内环境探索及视觉任务预训练。其纯RGB部署降低了对深度传感器和显式地图的依赖，适合资源受限或传感器受限的机器人系统。预训练的探索策略可作为下游任务的强大初始化，提高稀疏奖励任务的学习效率。未来可扩展至动态环境监测、虚拟现实场景探索及自动化仓储管理等领域，助力智能体在复杂真实世界中的自主决策和任务执行。

局限与展望

本研究假设环境静态，限制了动态场景的适用性。3DGS模型计算资源需求较高，实时更新和渲染在大规模场景中存在瓶颈。训练阶段依赖深度和相机位姿信息，增加了传感器需求和环境复杂度。策略在极端动态或多智能体环境中的表现尚未验证。未来需解决动态场景建模、计算效率优化及训练数据依赖问题，以提升方法的实用性和普适性。

通俗解读非专业人士也能看懂

想象你在一个巨大的游乐场里玩耍，但没有地图，也不知道哪里有好玩的新设施。你只能靠自己去发现新地方。传统的机器人就像只记不住路的孩子，常常在同一个地方转圈，觉得那里很新鲜，因为它忘了自己已经去过。本文的方法就像给孩子配备了一个能不断更新的3D游乐场地图和一个超级记忆力的脑袋。这个地图不仅能帮他记住已经探索过的地方，还能让他知道哪里还没去过。脑袋里的记忆让他不会重复走老路，而是能计划去新的区域。

具体来说，机器人用摄像头拍下周围的画面，实时构建一个三维的点云地图，这个地图会随着探索不断完善。机器人的大脑是一个Transformer模型，能记住过去看到的所有画面和动作，帮助它决定下一步该去哪。训练时，机器人会因为发现新地方而得到奖励，这种奖励来自它的地图预测和实际观察之间的差异。为了不让机器人只做随机动作，训练中还加入了随机行为，保证它不会陷入无聊的循环。

结果显示，这种方法让机器人在复杂的3D环境中探索得更全面、更有效，甚至能直接应用到新的环境中，不需要重新训练。它还能快速适应具体任务，比如找苹果或根据图片导航。总之，这就像给机器人装上了既能记路又爱探索的“大脑”，让它在未知世界里自由自在地冒险。

简单解释像给14岁少年讲一样

嘿，想象你在一个超级大的游乐场里玩，但没有地图，也不知道哪里有好玩的。你只能靠自己去发现新地方。普通的机器人就像忘性很大的小朋友，老是走回头路，觉得那里很新鲜，因为它忘了自己已经去过。现在，有个新方法帮机器人装了个超级厉害的大脑，能记住它走过的每一步，还能画出一个3D地图，告诉它哪里还没去过。

机器人用摄像头拍周围的样子，实时做出一个三维的地图，这个地图会一直更新。它的大脑是个叫Transformer的模型，能记住过去看到的所有画面和动作，帮它决定下一步去哪。训练的时候，机器人会因为发现新地方得到奖励，这奖励是它的地图预测和实际看到的东西不一样时给的。为了让机器人不乱跑，训练时还会让它偶尔随机走走。

结果很棒！机器人能在复杂的环境里探索得更全面，还能直接用在新的地方，不用重新教。它还能很快学会找苹果或者根据图片去指定地点。简单来说，这就像给机器人装了个超强记忆和探索能力的大脑，让它在未知世界里自由冒险，超酷吧！

术语表

Intrinsic Curiosity Module (内在好奇心模块)

一种基于预测误差的内在奖励机制，通过比较预测和实际观测的差异激励智能体探索未知状态。

论文中提及ICM作为传统好奇心驱动探索的代表，但其缺乏空间持久性，导致局部循环问题。

3D Gaussian Splatting (3DGS) (三维高斯点云重建)

一种基于高斯分布的点云表示方法，支持在线动态更新和高效渲染，保证空间一致性。

本文采用3DGS作为持久世界模型，提供稳定的预测误差用于内在奖励计算。

Transformer (变换器模型)

一种基于自注意力机制的序列模型，擅长捕捉长距离依赖和复杂时序关系。

策略网络采用Transformer架构，结合因果时序自注意力和全局线性注意力，实现长时序情节记忆。

Proximal Policy Optimization (PPO) (近端策略优化)

一种强化学习算法，通过限制策略更新幅度保证训练稳定性和高效性。

训练阶段采用PPO算法优化策略网络，结合好奇心奖励和随机动作混合策略。

Habitat Matterport 3D (HM3D) (Habitat Matterport三维数据集)

一个包含大量室内真实场景的3D数据集，广泛用于机器人导航和视觉任务研究。

本文在HM3D数据集上训练和测试，验证方法的有效性和泛化能力。

Episodic Memory (情节记忆)

智能体在一次探索过程中积累的历史观测和动作序列，用于决策和规划。

策略网络通过Transformer编码历史RGB和动作序列，实现情节记忆，避免重复探索。

Random Policy Mixing (随机策略混合)

训练时以一定概率采样随机动作，保证探索多样性，防止策略陷入局部最优。

本文训练中引入随机动作混合，解决稀疏奖励环境下探索退化问题。

Zero-shot Generalization (零样本泛化)

模型在未见过的新环境或任务中直接应用，表现良好的能力。

本文方法在Gibson和AI生成场景中实现零样本泛化，展示强泛化能力。

Plücker Ray (Plücker射线)

一种几何表示方法，用于编码相机动作的方向和位置关系。

动作编码为Plücker射线图像，与RGB拼接输入Transformer策略网络。

DINOv2 Features (DINOv2特征)

一种自监督视觉特征表示，增强图像编码的语义信息。

策略网络结合DINOv2特征与RGB图像编码，提升视觉表示能力。

开放问题这项研究留下的未解疑问

1 当前方法假设环境静态，如何扩展至动态场景中的变化检测和建模仍是未解难题，需发展动态持久世界模型。
2 3DGS模型计算开销较大，如何在保证精度的同时降低资源消耗，实现实时在线更新，是未来研究重点。
3 训练阶段依赖深度和相机位姿信息，如何实现完全基于RGB的自监督训练，减少传感器依赖，提升通用性尚未解决。
4 策略在多智能体环境或高度动态复杂环境中的表现和适应机制尚未探明，存在潜在挑战。
5 如何结合语义信息与几何信息，提升探索策略对复杂任务的理解和执行能力，是未来提升方向。

应用场景

近期应用

室内机器人导航

利用纯RGB输入的好奇心驱动策略，实现机器人在复杂室内环境中的自主探索和导航，无需依赖深度传感器或显式地图。

视觉任务预训练

通过好奇心驱动的探索预训练，提升机器人在稀疏奖励下的任务学习效率，如目标导航和物体拾取。

虚拟环境探索

应用于虚拟现实和游戏中智能体的自主探索，增强环境理解和交互能力，支持多样化场景泛化。

远期愿景

动态环境中的持久建模

发展支持动态场景的持久世界模型，实现智能体对环境变化的实时感知和适应，推动自主系统在真实世界的应用。

资源受限设备的高效探索

优化3D重建和策略网络的计算效率，适配移动机器人和嵌入式设备，实现低功耗、高效的自主探索。

原文摘要

Exploration is a prerequisite for learning useful behaviors in sparse-reward, long-horizon tasks, particularly within 3D environments. Curiosity-driven reinforcement learning addresses this via intrinsic rewards derived from the mismatch between the agent's predictive model of the world and reality. However, translating this intrinsic motivation to complex, photorealistic environments remains difficult, as agents can become trapped in local loops and receive fresh rewards for revisiting forgotten states. In this work, we demonstrate that this failure stems from a lack of spatial persistence and episodic context. We show that effective curiosity requires a model of the world that is persistent and continuously updated, paired with an agent that maintains an episodic trajectory history to navigate toward novel regions. We achieve this using an online 3D reconstruction as a persistent model of the world, while the agent policy is parameterized as a sequence model over RGB observations to maintain episodic context. This design enables effective exploration during training while allowing the agent to navigate using solely RGB frames at deployment. Trained purely via curiosity on HM3D, our agent outperforms RL-based active mapping baselines and generalizes zero-shot to Gibson and AI-generated worlds. Our end-to-end policy enables efficient adaptation to downstream tasks, such as apple picking and image-goal navigation, outperforming from-scratch baselines. Please see video results at https://recuriosity.github.io/.

cs.LG

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Intrinsic Curiosity Module (内在好奇心模块)

3D Gaussian Splatting (3DGS) (三维高斯点云重建)

Transformer (变换器模型)

Proximal Policy Optimization (PPO) (近端策略优化)

Habitat Matterport 3D (HM3D) (Habitat Matterport三维数据集)

Episodic Memory (情节记忆)

Random Policy Mixing (随机策略混合)

Zero-shot Generalization (零样本泛化)

Plücker Ray (Plücker射线)

DINOv2 Features (DINOv2特征)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

室内机器人导航

视觉任务预训练

虚拟环境探索

远期愿景

动态环境中的持久建模

资源受限设备的高效探索

原文摘要

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问