DENALI: A Dataset Enabling Non-Line-of-Sight Spatial Reasoning with Low-Cost LiDARs

TL;DR

DENALI数据集利用低成本LiDAR实现非视距空间推理,涵盖72,000个场景。

cs.RO 🟡 进阶级 2026-04-18 1 引用 35 次浏览
Nikhil Behari Diego Rivero Luke Apostolides Suman Ghosh Paul Pu Liang Ramesh Raskar
LiDAR 非视距成像 数据集 机器学习 空间推理

核心发现

方法论

本研究提出了DENALI数据集,专注于低成本LiDAR的非视距(NLOS)感知。通过捕获72,000个场景的时空直方图,研究展示了如何利用消费级LiDAR进行数据驱动的NLOS推理。方法包括利用数据集进行对象定位、形状分类和尺寸估计。实验中使用了多种机器学习模型,如1D CNN和3D CNN,以评估LiDAR数据的NLOS感知能力。

关键结果

  • 结果1:使用1D CNN进行对象定位,达到0.046米的RMSE,展示了低成本LiDAR在NLOS感知中的潜力。
  • 结果2:在形状分类任务中,1D CNN模型实现了0.38的宏F1分数,表明数据集在识别不同形状方面的有效性。
  • 结果3:在尺寸预测任务中,模型准确率达到0.95,验证了数据驱动方法在NLOS感知中的可行性。

研究意义

本研究通过DENALI数据集展示了低成本LiDAR在非视距成像中的潜力,填补了消费级LiDAR在复杂场景中进行NLOS感知的空白。此项研究为未来在移动设备和机器人中实现更复杂的感知任务铺平了道路,具有重要的学术和工业意义。

技术贡献

技术贡献包括首次大规模捕获低成本LiDAR的时空直方图,展示了消费级LiDAR在NLOS感知中的应用潜力。研究中使用的机器学习模型提供了新的数据驱动方法,可以在不依赖实验室级设备的情况下实现NLOS感知。

新颖性

本研究首次提出了DENALI数据集,专注于低成本LiDAR的NLOS感知。与现有的高成本实验室级设备相比,DENALI数据集展示了消费级LiDAR在实际场景中的应用潜力。

局限性

  • 局限1:数据集仅在控制条件下捕获,未能完全反映动态真实环境的多样性。
  • 局限2:使用的LiDAR型号有限,可能不代表所有消费级LiDAR的性能。
  • 局限3:模型在不同光照条件下的表现差异,表明当前方法在分离对象属性、场景几何和环境光照方面的不足。

未来方向

未来研究方向包括扩展数据集以涵盖更多动态场景,开发更先进的模型以更好地分离对象、几何和光照因素,以及探索如何在实际应用中优化低成本LiDAR的NLOS感知能力。

AI 总览摘要

在现代技术中,LiDAR传感器已成为移动设备和机器人中不可或缺的一部分。然而,消费级LiDAR通常仅提供每个像素的单一深度值,忽略了多次反射光信号所携带的丰富信息。这些多次反射信号可以揭示隐藏物体的存在,但传统方法难以在消费级设备上实现这种非视距(NLOS)感知。

为了解决这一问题,研究团队开发了DENALI数据集,这是首个大规模的真实世界数据集,专注于低成本LiDAR的时空直方图。该数据集捕获了72,000个场景,涵盖多种对象形状、位置、光照条件和空间分辨率。通过这些数据,研究展示了如何利用消费级LiDAR进行准确的数据驱动NLOS感知。

研究中使用了多种机器学习模型,如1D CNN和3D CNN,以评估LiDAR数据的NLOS感知能力。实验结果显示,1D CNN在对象定位任务中实现了0.046米的RMSE,在形状分类任务中实现了0.38的宏F1分数,而在尺寸预测任务中,模型准确率达到0.95。这些结果表明,低成本LiDAR的直方图信号足以支持一系列NLOS感知任务。

DENALI数据集的推出不仅填补了消费级LiDAR在复杂场景中进行NLOS感知的空白,还为未来在移动设备和机器人中实现更复杂的感知任务铺平了道路。研究强调了低成本LiDAR在NLOS成像中的潜力,具有重要的学术和工业意义。

尽管如此,研究也指出了当前方法的局限性,如数据集仅在控制条件下捕获,未能完全反映动态真实环境的多样性。此外,模型在不同光照条件下的表现差异,表明当前方法在分离对象属性、场景几何和环境光照方面的不足。未来研究方向包括扩展数据集以涵盖更多动态场景,开发更先进的模型以更好地分离对象、几何和光照因素,以及探索如何在实际应用中优化低成本LiDAR的NLOS感知能力。

深度分析

研究背景

LiDAR技术在近年来得到了广泛应用,尤其是在自动驾驶、机器人和移动设备中。传统的LiDAR传感器主要用于测量场景的深度信息,通过发射激光脉冲并记录返回光子的时间来估计深度。然而,这种方法通常仅利用了直接返回的光信号,忽略了多次反射光信号所携带的丰富信息。多次反射光信号可以揭示隐藏物体的存在,这一原理是非视距(NLOS)成像研究的基础。尽管实验室级LiDAR设备已在NLOS成像中取得了一定进展,但消费级LiDAR由于硬件限制,难以实现类似的功能。因此,如何在低成本LiDAR上实现NLOS感知成为一个重要的研究课题。

核心问题

消费级LiDAR通常仅输出每个像素的单一深度值,而忽略了多次反射光信号所携带的丰富信息。传统的NLOS成像方法依赖于高成本的实验室级设备,而消费级LiDAR由于硬件限制,难以实现类似的功能。这一问题的核心在于如何利用消费级LiDAR的时空直方图数据进行NLOS感知,以揭示隐藏物体的存在。解决这一问题不仅可以提高LiDAR在移动设备和机器人中的应用潜力,还可以为更复杂的感知任务提供支持。

核心创新

本研究的核心创新在于提出了DENALI数据集,这是首个专注于低成本LiDAR的非视距(NLOS)感知的大规模真实世界数据集。该数据集捕获了72,000个场景的时空直方图,涵盖多种对象形状、位置、光照条件和空间分辨率。通过这些数据,研究展示了如何利用消费级LiDAR进行准确的数据驱动NLOS感知。与传统的NLOS成像方法相比,DENALI数据集展示了消费级LiDAR在实际场景中的应用潜力,为未来在移动设备和机器人中实现更复杂的感知任务铺平了道路。

方法详解

  • �� 数据集构建:捕获72,000个场景的时空直方图,涵盖多种对象形状、位置、光照条件和空间分辨率。
  • �� 模型选择:使用多种机器学习模型,如1D CNN和3D CNN,以评估LiDAR数据的NLOS感知能力。
  • �� 数据驱动方法:利用数据集进行对象定位、形状分类和尺寸估计,展示消费级LiDAR在NLOS感知中的潜力。
  • �� 实验设计:在不同光照条件和对象位置下进行实验,验证模型在NLOS感知任务中的表现。

实验设计

实验设计包括在不同光照条件和对象位置下进行测试,以验证模型在NLOS感知任务中的表现。使用的数据集涵盖72,000个场景,包含多种对象形状、位置和空间分辨率。实验中使用了多种机器学习模型,如1D CNN和3D CNN,以评估LiDAR数据的NLOS感知能力。关键超参数包括模型的学习率、批量大小和训练轮数。此外,还进行了消融研究,以分析不同模型组件对NLOS感知任务的影响。

结果分析

实验结果显示,1D CNN在对象定位任务中实现了0.046米的RMSE,在形状分类任务中实现了0.38的宏F1分数,而在尺寸预测任务中,模型准确率达到0.95。这些结果表明,低成本LiDAR的直方图信号足以支持一系列NLOS感知任务。此外,研究还发现,模型在不同光照条件下的表现差异,表明当前方法在分离对象属性、场景几何和环境光照方面的不足。

应用场景

DENALI数据集的推出为低成本LiDAR在非视距成像中的应用提供了新的可能性。直接应用场景包括移动设备和机器人中的对象定位、形状分类和尺寸估计。这些应用可以在不依赖高成本实验室级设备的情况下实现复杂的感知任务,对工业界具有重要影响。

局限与展望

尽管DENALI数据集展示了低成本LiDAR在NLOS成像中的潜力,但研究也指出了当前方法的局限性。数据集仅在控制条件下捕获,未能完全反映动态真实环境的多样性。此外,模型在不同光照条件下的表现差异,表明当前方法在分离对象属性、场景几何和环境光照方面的不足。未来研究方向包括扩展数据集以涵盖更多动态场景,开发更先进的模型以更好地分离对象、几何和光照因素,以及探索如何在实际应用中优化低成本LiDAR的NLOS感知能力。

通俗解读 非专业人士也能看懂

想象一下你在一个大房间里,房间里有许多障碍物,而你需要找到一个被隐藏的物体。通常情况下,你会用眼睛直接看到物体,但如果物体被其他东西挡住了呢?这就像是在一个迷宫里寻找出口,你需要依靠反射的声音或光线来判断物体的位置。LiDAR传感器就像是你的眼睛,它可以发射激光并测量光线返回的时间,从而估计物体的距离。传统的LiDAR只会告诉你直接看到的物体的距离,但实际上,光线在返回之前可能会经过多次反射,这就像是你在迷宫里听到的回声,可以帮助你判断隐藏物体的位置。研究人员开发了一个新的数据集,专注于利用这些多次反射的光信号来感知隐藏物体的位置。这就像是给你的眼睛增加了一种新的能力,让你即使在看不到物体的情况下,也能知道它们在哪里。通过这种方法,研究人员展示了如何利用低成本的LiDAR设备来实现这种非视距的感知,为未来在移动设备和机器人中实现更复杂的感知任务提供了可能性。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!你们知道吗?我们的手机和一些机器人上有一种叫做LiDAR的传感器,它可以用来测量物体的距离。想象一下,你在玩捉迷藏,你的朋友藏在一个你看不到的地方。通常,你会用眼睛去找,但如果你能用一种特别的光线来“看到”那些被挡住的地方,那会不会很酷?LiDAR就像是这种特别的光线。它发射激光,然后测量这些激光返回的时间来判断物体的距离。研究人员发现,这些激光在返回之前可能会经过多次反射,就像是回声一样,可以帮助我们找到隐藏的物体。他们开发了一个新的数据集,专注于利用这些多次反射的光信号来感知隐藏物体的位置。这就像是给我们的眼睛增加了一种新的能力,让我们即使在看不到物体的情况下,也能知道它们在哪里。是不是很神奇?未来,我们可以用这种方法来让我们的手机和机器人变得更聪明,能够在复杂的环境中找到隐藏的东西!

术语表

LiDAR (光探测和测距)

LiDAR是一种通过发射激光并测量返回光子的时间来估计物体距离的技术。它广泛应用于自动驾驶、机器人和移动设备中。

在论文中,LiDAR用于捕获场景的时空直方图,以实现非视距感知。

NLOS (非视距)

非视距成像是一种利用多次反射的光信号来感知被遮挡物体的方法。它可以揭示隐藏物体的存在。

论文中,NLOS感知是通过分析LiDAR的时空直方图实现的。

时空直方图

时空直方图记录了光子返回的时间分布信息,包含了直接和多次反射的光信号。

研究中,时空直方图用于分析多次反射信号,以实现NLOS感知。

1D CNN (一维卷积神经网络)

1D CNN是一种用于处理一维数据的神经网络,常用于时间序列分析。

在论文中,1D CNN用于分析LiDAR的时空直方图,以实现对象定位。

3D CNN (三维卷积神经网络)

3D CNN是一种用于处理三维数据的神经网络,常用于视频和三维图像分析。

在论文中,3D CNN用于分析LiDAR的时空直方图,以实现形状分类。

RMSE (均方根误差)

RMSE是一种用于衡量预测值与真实值之间差异的指标,数值越小表示预测越准确。

在论文中,RMSE用于评估模型在对象定位任务中的表现。

宏F1分数

宏F1分数是一种用于评估分类模型性能的指标,综合考虑了精确率和召回率。

在论文中,宏F1分数用于评估模型在形状分类任务中的表现。

消融研究

消融研究是一种通过移除模型的某些组件来评估其对整体性能影响的方法。

在论文中,消融研究用于分析不同模型组件对NLOS感知任务的影响。

数据驱动方法

数据驱动方法是一种通过分析大量数据来训练模型并进行预测的方法。

在论文中,数据驱动方法用于利用LiDAR数据进行NLOS感知。

消费级LiDAR

消费级LiDAR是一种成本较低、适用于移动设备和机器人等消费电子产品的LiDAR传感器。

在论文中,消费级LiDAR用于捕获时空直方图,以实现NLOS感知。

开放问题 这项研究留下的未解疑问

  • 1 开放问题1:如何在动态真实环境中实现低成本LiDAR的NLOS感知?目前的数据集仅在控制条件下捕获,未能完全反映动态真实环境的多样性。
  • 2 开放问题2:如何在不增加硬件成本的情况下提高消费级LiDAR的空间分辨率?当前的消费级LiDAR由于硬件限制,难以实现高分辨率的NLOS感知。
  • 3 开放问题3:如何开发更先进的模型以更好地分离对象、几何和光照因素?当前模型在不同光照条件下的表现差异,表明在分离这些因素方面存在不足。
  • 4 开放问题4:如何优化低成本LiDAR在实际应用中的NLOS感知能力?虽然研究展示了消费级LiDAR在NLOS成像中的潜力,但在实际应用中仍需进一步优化。
  • 5 开放问题5:如何在不依赖高成本实验室级设备的情况下实现复杂的感知任务?DENALI数据集展示了消费级LiDAR的潜力,但在实际应用中仍需克服许多挑战。

应用场景

近期应用

移动设备中的对象定位

利用DENALI数据集和低成本LiDAR,可以在移动设备中实现对象定位,提高设备在复杂环境中的感知能力。

机器人中的形状分类

通过分析LiDAR的时空直方图,机器人可以在不依赖高成本设备的情况下实现形状分类,提高其在复杂环境中的导航能力。

增强现实中的尺寸估计

利用数据驱动方法,增强现实设备可以在不增加硬件成本的情况下实现尺寸估计,提高用户体验。

远期愿景

智能城市中的NLOS感知

未来,低成本LiDAR可以用于智能城市中的NLOS感知,实现对隐藏物体的实时监测,提高城市安全性。

自动驾驶中的复杂场景感知

通过优化低成本LiDAR的NLOS感知能力,自动驾驶车辆可以在复杂场景中实现更准确的感知,提高行驶安全性。

原文摘要

Consumer LiDARs in mobile devices and robots typically output a single depth value per pixel. Yet internally, they record full time-resolved histograms containing direct and multi-bounce light returns; these multi-bounce returns encode rich non-line-of-sight (NLOS) cues that can enable perception of hidden objects in a scene. However, severe hardware limitations of consumer LiDARs make NLOS reconstruction with conventional methods difficult. In this work, we motivate a complementary direction: enabling NLOS perception with low-cost LiDARs through data-driven inference. We present DENALI, the first large-scale real-world dataset of space-time histograms from low-cost LiDARs capturing hidden objects. We capture time-resolved LiDAR histograms for 72,000 hidden-object scenes across diverse object shapes, positions, lighting conditions, and spatial resolutions. Using our dataset, we show that consumer LiDARs can enable accurate, data-driven NLOS perception. We further identify key scene and modeling factors that limit performance, as well as simulation-fidelity gaps that hinder current sim-to-real transfer, motivating future work toward scalable NLOS vision with consumer LiDARs.

cs.RO cs.CV

参考文献 (20)

Data-Driven Non-Line-of-Sight Imaging With A Traditional Camera

Matthew Tancik, Tristan Swedish, Guy Satat 等

2018 17 引用

A Review of Single-Photon Avalanche Diode Time-of-Flight Imaging Sensor Arrays

F. Piron, Daniel Morrison, M. Yuce 等

2020 86 引用

AB3DMOT: A Baseline for 3D Multi-Object Tracking and New Evaluation Metrics

Xinshuo Weng, Jianren Wang, David Held 等

2020 129 引用 查看解读 →

Optical Non-Line-of-Sight Physics-Based 3D Human Pose Estimation

Mariko Isogawa, Ye Yuan, Matthew O'Toole 等

2020 80 引用 查看解读 →

Scalability in Perception for Autonomous Driving: Waymo Open Dataset

Pei Sun, Henrik Kretzschmar, Xerxes Dotiwalla 等

2019 3913 引用 查看解读 →

SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences

Jens Behley, Martin Garbade, Andres Milioto 等

2019 2327 引用

nuScenes: A Multimodal Dataset for Autonomous Driving

Holger Caesar, Varun Bankiti, Alex H. Lang 等

2019 7887 引用 查看解读 →

Non-line-of-sight imaging

D. Faccio, A. Velten, Gordon Wetzstein

2019 227 引用 查看解读 →

PointPillars: Fast Encoders for Object Detection From Point Clouds

Alex H. Lang, Sourabh Vora, Holger Caesar 等

2018 4374 引用 查看解读 →

Learned feature embeddings for non-line-of-sight imaging and recognition

Wenzheng Chen, Fangyin Wei, Kiriakos N. Kutulakos 等

2020 91 引用

Towards photography through realistic fog

Guy Satat, Matthew Tancik, R. Raskar

2018 124 引用

Lidar System Architectures and Circuits

Behnam Behroozpour, Phillip A. M. Sandborn, Ming C. Wu 等

2017 348 引用

Material Classification Using Raw Time-of-Flight Measurements

Shuochen Su, Felix Heide, Robin Swanson 等

2016 56 引用

A light transport model for mitigating multipath interference in Time-of-flight sensors

Nikhil Naik, Achuta Kadambi, Christoph Rhemann 等

2015 89 引用

Are we ready for autonomous driving? The KITTI vision benchmark suite

Andreas Geiger, Philip Lenz, R. Urtasun

2012 14891 引用

Recovering three-dimensional shape around a corner using ultrafast time-of-flight imaging

A. Velten, T. Willwacher, O. Gupta 等

2012 764 引用

Looking around the corner using transient imaging

Ahmed Kirmani, Tyler Hutchison, James Davis 等

2009 218 引用

Toward Dynamic Non-Line-of-Sight Imaging with Mamba Enforced Temporal Consistency

Yue Li, Yi Sun, Shida Sun 等

2024 6 引用

NLOST: Non-Line-of-Sight Imaging with Transformer

Yue Li, Jiayong Peng, Juntian Ye 等

2023 44 引用

Recovering Parametric Scenes from Very Few Time-of-Flight Pixels

Carter Sifferman, Yiquan Li, Yiming Li 等

2025 2 引用 查看解读 →

被引用 (1)

Spatial Calibration of Diffuse LiDARs