Semantically-Aware Diver Activity Recognition Framework for Effective Underwater Multi-Human-Robot Collaboration

TL;DR

提出基于Transformer的DAR-Net模型，结合像素级场景监督，识别水下多人与机器人合作中的六类潜水员活动，利用首个水下潜水员活动数据集UDA，显著优于现有模型。

cs.RO 🔴 高级 2026-06-11 53 次浏览

Sadman Sakib Enan Junaed Sattar

水下机器人活动识别 Transformer 多模态学习深度学习场景语义数据集多任务学习

核心发现

方法论

本文提出的DAR-Net框架采用基于ResNeXt-101的特征提取器，结合Transformer模块进行时序推理，并引入像素级场景语义监督。训练过程中采用多损失函数，包括分类交叉熵和像素级语义二元交叉熵，动态调节不同损失的权重。模型输入为水下视频片段，经过特征编码、位置编码、Transformer自注意力机制，提取时空特征。分支结构包括分类和分割两个子网络，前者通过Transformer进行全局时序建模，后者利用编码-解码结构学习局部场景语义。训练采用数据增强和多任务联合优化，确保模型关注关键区域如潜水员、机器人和目标物体。该方法充分利用场景语义信息，提升模型对低能见度环境下的活动识别能力。

关键结果

在水下多潜水员合作场景中，DAR-Net在六类潜水员活动识别任务中达到73.33%的准确率，明显优于3DResNet（53.33%）和SlowFast（56.67%）等SOTA模型。精确率达76.90%，召回率73.33%，F1-score为72.17%，显示出优异的平衡性能。对比无语义监督的模型，DAR-Net在关键区域的注意力集中显著提升，误识率降低。通过在UDA数据集上的实验验证，模型在复杂水下环境中的鲁棒性得到了充分体现。
结果还表明，语义引导的多任务训练策略有效增强模型对微妙动作的识别能力，尤其在潜水员忙碌和机器人交互类别中表现出一定的局限性，但整体性能优于现有方法。

研究意义

本研究首次系统性引入Transformer架构结合像素级场景语义监督，解决了水下环境中潜水员活动识别的关键难题。该技术突破为水下多人与机器人协作提供了基础，有助于实现自主潜水器在复杂环境中的自主决策和协作能力。研究填补了缺乏大规模水下潜水员活动数据集的空白，推动了水下机器人自主感知、理解和交互的发展，为未来海洋探索、救援和环境监测提供了技术支撑。其深度学习模型的高效性和鲁棒性，为水下智能系统的实际部署奠定了基础。

技术贡献

本研究的技术贡献主要在于提出结合Transformer的端到端深度学习架构DAR-Net，创新性地引入像素级场景语义监督，利用多任务联合训练策略实现全局活动识别与局部交互语义的有效结合。模型采用多损失函数设计，动态调节分类和分割任务的权重，增强模型对关键区域的关注。引入位置编码确保时空信息的有效融合，利用Encoder-Decoder结构提升局部场景理解能力。通过在水下潜水员活动数据集UDA上的验证，展示了模型在低能见度和复杂交互场景中的优越性能，推动了水下多模态感知与理解技术的发展。

新颖性

本研究的创新点在于首次将Transformer架构应用于水下潜水员活动识别任务，并结合像素级场景语义监督实现多任务端到端学习。相较于传统的卷积神经网络（如3DResNet、SlowFast），本方法通过引入自注意力机制增强时序建模能力，利用场景语义引导模型关注关键区域，从而显著提升识别精度。提出的UDA数据集也是首次面向多潜水员与机器人协作场景的像素级标注数据集，为未来研究提供了宝贵资源。整体上，该方法在低能见度环境下的鲁棒性和识别准确率方面，优于现有的深度学习模型，具有较强的创新性。

局限性

数据集规模有限，只有2600余张标注图像，可能限制模型的泛化能力，尤其在更复杂或开放水域环境中表现尚未验证。
实验仅在封闭水池环境中进行，缺乏真实海洋环境的多样性，存在环境变化（如流动、光照变化）带来的挑战。
模型对某些微妙动作（如潜水员忙碌状态和机器人交互）识别仍存在困难，主要由于短视频片段中动作特征不明显，误差较大。

未来方向

未来将扩大数据集规模，结合合成数据增强和开放水域实地采集，提升模型的泛化能力。计划引入多模态信息（如声学、压力传感）增强感知能力，结合自主学习策略不断优化模型性能。此外，将探索更高效的模型结构以降低计算成本，推动水下自主机器人在复杂环境中的应用落地。还将研究多任务学习和迁移学习技术，以适应不同水域环境和任务需求，促进水下智能系统的广泛部署。

AI 总览摘要

在深海探索、环境监测和救援行动中，水下多人与机器人协作正逐渐成为未来海洋科技的核心。尽管自主潜水器（AUVs）在任务执行方面展现出巨大潜力，但其智能化水平仍受限于对复杂水下场景中潜水员活动的准确识别能力。传统的活动识别方法多依赖于手工特征或浅层学习模型，难以应对低能见度、光照变化和复杂交互的挑战。为突破这一瓶颈，本文提出了基于Transformer的DAR-Net框架，结合像素级场景语义监督，有效提升水下潜水员活动识别的准确性和鲁棒性。

该方法的核心在于利用ResNeXt-101作为特征提取器，结合Transformer模块进行时序推理，采用多任务联合训练策略，将全局活动分类与局部场景理解相结合。训练过程中引入动态调节的多损失函数，确保模型关注关键区域如潜水员、机器人和目标物体，从而在低能见度环境中表现出色。为了验证模型的有效性，作者首次构建了水下潜水员活动数据集UDA，涵盖六类典型行为，包括任务分配、空闲、忙碌、潜水员间互动、潜水员与机器人合作以及非言语交流，全部进行像素级标注。

在封闭水池环境中进行的实验显示，DAR-Net在六类活动识别中达到了73.33%的准确率，优于多种SOTA模型。详细分析表明，语义引导的训练策略显著提升了模型对关键区域的关注度，减少了误识率。尽管在某些微妙动作类别中仍存在识别困难，但整体性能已具备实用价值。该研究不仅为水下多模态感知提供了技术基础，也为未来海洋探索、救援和环境监测中的自主系统发展奠定了基础。未来工作将聚焦于数据集扩展、模型泛化能力提升以及多模态融合，推动水下智能机器人技术的持续进步。

深度分析

研究背景

水下机器人技术近年来取得了显著发展，尤其在环境监测、海底测绘、沉船检测和搜救等任务中展现出巨大潜力。早期研究主要集中在自主导航和目标检测，代表性工作包括AUV的路径规划算法、声呐成像技术以及基于深度学习的目标识别模型。随着计算能力的提升，深度卷积神经网络（如VGG、ResNet）被引入水下视觉任务，显著提升了目标检测和分类性能。然而，潜水员活动识别作为水下人机交互的关键环节，仍面临诸多挑战，包括低能见度、光照变化和复杂交互场景的理解缺失。现有公开数据集大多只关注潜水员的运动或静态姿态，缺乏多潜水员、多机器人协作的场景标注，限制了深度模型的应用。近年来，Transformer架构在自然语言处理和视觉任务中表现出优越性能，为水下活动识别提供了新的可能性。尽管如此，相关研究仍处于起步阶段，缺乏系统性解决方案和大规模数据支持。

核心问题

水下潜水员活动识别的核心问题在于环境复杂、数据稀缺以及多样交互行为的模糊性。低能见度和水下光照条件导致图像信息模糊，传统视觉模型难以提取有效特征。现有模型多依赖于浅层特征或单一模态，难以捕获潜水员的微妙动作和交互细节。此外，缺乏大规模、多类别的水下潜水员活动数据集，使得深度学习模型难以充分训练，泛化能力不足。多潜水员与机器人协作场景中，交互行为复杂多变，容易出现误识和漏识，影响任务的安全性和效率。因此，亟需结合场景语义信息，设计具有强时空推理能力的深度模型，同时构建丰富的水下活动数据集，解决数据不足和场景复杂性带来的双重挑战。

核心创新

本研究的创新点主要体现在以下几个方面：

1. 引入Transformer架构：利用Transformer的自注意力机制增强时序建模能力，捕获潜水员动作的长程依赖，突破传统卷积模型的局限。

2. 像素级场景语义监督：通过像素级标注引导模型关注关键区域，提升模型对低能见度和复杂背景的鲁棒性。

3. 多任务联合训练：结合全局活动分类和局部场景分割任务，利用多损失策略优化模型性能，增强对微妙动作的识别能力。

4. 首个水下潜水员活动数据集：UDA涵盖六类典型行为，全部进行像素级标注，为研究提供了宝贵资源。

这些创新共同推动了水下多潜水员活动识别技术的发展，为未来自主水下机器人系统提供了坚实基础。

方法详解

�� 特征提取：采用ResNeXt-101作为基础网络，提取水下场景的深层特征，结合位置编码增强时空信息表达。
�� Transformer推理：将提取的特征输入Transformer模块，通过自注意力机制建模长程时序关系，捕获潜水员动作的动态变化。
�� 多任务学习：设计分类分支（基于Transformer输出）和分割分支（基于编码-解码结构），分别进行全局活动识别和局部场景理解。
�� 损失函数：定义分类交叉熵损失和像素级二元交叉熵损失，结合可调参数进行加权，动态优化模型。
�� 训练策略：采用数据增强（随机裁剪、翻转、畸变），在UDA数据集上进行200轮训练，使用AdamW优化器，调节学习率至10^-5。
�� 评估指标：采用准确率、精确率、召回率和F1-score，进行模型性能全面评估。

实验设计

�� 数据集：构建的UDA数据集包含2600余张像素级标注图像，涵盖六类潜水员活动，场景多样，真实反映水下交互。
�� 训练设置：80/20划分训练和验证集，训练200轮，批次大小4，学习率10^-5，使用GPU（RTX6000）进行。
�� 基线模型：包括3DResNet、R(2+1)D、SlowFast等，全部在UDA上重新训练，确保公平比较。
�� 评估方法：在30个测试视频片段上进行推理，计算准确率、精确率、召回率和F1-score，绘制混淆矩阵。
�� Ablation研究：比较有无场景语义监督的模型差异，分析注意力图变化，验证语义引导的有效性。

结果分析

�� DAR-Net在六类潜水员活动识别中达到了73.33%的准确率，显著优于3DResNet（53.33%）和SlowFast（56.67%）。
�� 精确率为76.90%，召回率为73.33%，F1-score为72.17%，表现出良好的平衡性。
�� 语义引导模型在关键区域的注意力集中明显优于无监督模型，误识率降低。
�� 混淆矩阵显示模型在大部分类别中表现优异，但在“忙碌”和“机器人交互”类别中仍存在误分类，提示微妙动作识别的难点。
�� Ablation分析验证了场景语义监督对提升模型性能的关键作用，注意力图的变化直观反映了模型关注重点的转变。

应用场景

�� 立即应用：可部署于水下自主潜水器，用于实时监测潜水员状态，辅助任务调度和安全保障。
�� 长远愿景：推动水下自主系统在海洋科学、海底资源勘探、环境保护等领域的广泛应用，实现智能化、协作化的海洋探索体系。

局限与展望

�� 数据集规模有限，难以涵盖所有潜水场景，模型在复杂环境中的泛化能力有待验证。
�� 仅在封闭水池环境中测试，实际海洋环境的多样性和复杂性未充分考虑。
�� 微妙动作识别仍存在困难，未来需引入多模态信息和更复杂的模型结构以提升性能。

通俗解读非专业人士也能看懂

想象一下你在一个繁忙的厨房里工作，有很多厨师在同时准备不同的菜肴。每个厨师动作不同，有的在切菜，有的在炒菜，还有的在和其他厨师交流。厨房里灯光不总是很亮，有时候油烟会遮挡视线，但你还是能大致知道谁在做什么。现在，假设你有一台特别聪明的机器人助手，它可以观察厨房里的每个人，记住他们在做什么，还能知道谁在忙，谁在闲着，甚至能理解他们之间的交流。这台机器人用一种叫“Transformer”的新技术，能像人一样理解复杂的场景，知道每个人的动作和互动。它还会用一种特殊的“眼睛”——像素级的场景理解，帮助它更准确地判断每个人的具体动作。通过不断学习和观察，这个机器人变得越来越聪明，能在厨房里帮忙分配任务、提醒厨师注意安全，甚至在你不在时帮你管理厨房。这就像我们给机器人装上了“眼睛”和“脑袋”，让它在水下也能像在厨房一样，观察潜水员的动作，理解他们的合作，从而帮助他们完成任务，保证安全。这个技术的核心，就是让机器人变得更聪明、更懂场景，能在复杂环境中自主行动。

简单解释像给14岁少年讲一样

想象一下你在游泳池里和朋友们玩水，大家都在做不同的动作。有的人在潜水，有的人在跟朋友聊天，还有人在帮忙搬东西。现在，想象有个超级聪明的机器人，它能看着你们，知道你在做什么，比如你在忙着整理装备，或者在跟朋友打招呼。这个机器人用了一种叫“Transformer”的新技术，能像人一样理解你们的动作和互动。它还会用一种特别的“眼睛”——像素级的场景理解，帮它更清楚地看到你们在水中的位置和动作。这样，它就能知道谁在忙，谁在休息，甚至能理解你们之间的交流。通过不断学习，这个机器人变得越来越聪明，能在水下帮忙，比如提醒你注意安全，或者帮你找到需要的东西。它就像一个会观察、会理解、会帮忙的水下伙伴，让潜水变得更安全、更有趣。这项技术的厉害之处在于，它让机器人变得更聪明，能在复杂的水下环境中自主行动，帮助人类完成各种任务。

术语表

Transformer (变换器)

一种基于自注意力机制的深度学习模型，擅长捕获长距离依赖关系，广泛应用于自然语言处理和视觉任务中。

在本文中，Transformer用于时序推理，增强潜水员动作的动态理解。

像素级场景语义 (Pixel-level scene semantics)

对图像中每个像素赋予类别标签，描述场景中的不同元素和区域，帮助模型关注关键区域。

用于引导模型关注潜水员、机器人和目标物体，提升识别精度。

UDA数据集 (UDA dataset)

首个水下潜水员活动像素级标注数据集，包含2600多张场景图像，涵盖六类典型行为。

为训练和验证潜水员活动识别模型提供了基础数据资源。

多任务学习 (Multi-task learning)

同时优化多个相关任务的模型训练策略，提高模型的泛化能力和鲁棒性。

在本文中，结合活动分类和场景分割两个任务，提升模型对微妙动作的识别能力。

自注意力机制 (Self-attention mechanism)

一种计算序列中各元素相互关系的机制，使模型能够动态调整关注重点。

Transformer中的核心组件，用于建模潜水员动作的长程依赖。

Encoder-Decoder结构

一种神经网络架构，编码输入信息，解码生成输出，常用于图像分割和生成任务。

用于像素级场景理解，帮助模型学习局部语义信息。

多模态感知 (Multimodal perception)

结合多种感知模态（视觉、声学、压力等）以增强环境理解能力。

未来可能引入多模态信息，提升水下机器人对复杂场景的感知能力。

低能见度环境 (Low visibility environment)

水下环境中因水质、光照等因素导致的视觉信息模糊或缺失状态。

模型在此类环境中依赖场景语义和时空推理实现鲁棒识别。

开放问题这项研究留下的未解疑问

1 尽管本研究在封闭水域环境中取得了良好效果，但在开放水域中的适应性和鲁棒性尚未验证。未来需要在多变的海洋环境中收集更多数据，验证模型的泛化能力。此外，如何融合多模态信息（如声学、压力传感）以进一步提升识别性能，也是亟待解决的问题。模型在微妙动作和复杂交互中的表现仍有提升空间，特别是在极端环境条件下的稳定性和实时性方面。未来研究还应关注模型的计算效率和部署成本，以实现实际应用中的实时监控和交互。

应用场景

近期应用

水下潜水员安全监测

利用DAR-Net实时识别潜水员的活动状态，及时发现异常行为，辅助救援和安全管理。

自主水下机器人协作

在海底作业中，机器人根据潜水员动作自主调整任务分配，提高效率和安全性。

海洋环境监测

结合潜水员和机器人，进行复杂环境的多源信息融合，实现高效监测和数据采集。

远期愿景

智能海洋探索系统

打造自主、多模态感知的水下智能系统，支持深海科学研究和资源开发。

海底应急救援平台

建立基于深度学习的自动识别和决策系统，提升海底灾难响应速度和效率。

原文摘要

Effective multi-human-robot collaboration is essential for expanding human-led operations in the challenging and high-risk underwater environment. For autonomous underwater vehicles (AUVs) to become true teammates, they must be able to comprehend their surroundings and recognize a diver's activities to offer assistance and ensure safety. Towards this goal, we introduce DAR-Net, a novel transformer-based framework that analyzes complex underwater scenes to classify diver activities. Our contribution lies in a semantically guided learning formulation that couples transformer-based temporal reasoning with pixel-level scene supervision. This multi-loss training strategy explicitly aligns global activity recognition with local human-robot interaction semantics, which is particularly critical in low-visibility underwater conditions. To address the significant challenge of data scarcity in this domain, we present the first-ever Underwater Diver Activity (UDA) dataset, a foundational resource containing over 2,600 annotated images with pixel-level masks. Through rigorous experimental evaluations in a controlled environment, we demonstrate that DAR-Net achieves promising accuracy in recognizing six distinct diver activities, outperforming state-of-the-art models. While this dataset provides a crucial baseline, our work serves as a pioneering step, laying the groundwork for future research and facilitating the development of more intelligent, collaborative underwater robotic systems.

cs.RO cs.CV

参考文献 (20)

Real-Time Dense 3D Mapping of Underwater Environments

Weihan Wang, Bharat Joshi, Nathaniel Burgdorfer 等

2023 41 引用查看解读 →

Learning Spatiotemporal Features with 3D Convolutional Networks

Du Tran, Lubomir D. Bourdev, R. Fergus 等

2014 9270 引用

Understanding human motion and gestures for underwater human–robot collaboration

M. Islam

2018 91 引用查看解读 →

Aggregated Residual Transformations for Deep Neural Networks

Saining Xie, Ross B. Girshick, Piotr Dollár 等

2016 11670 引用查看解读 →

Human Activity Recognition using Binary Motion Image and Deep Learning

Tushar Dobhal, Vivswan Shitole, G. Thomas 等

2015 70 引用

DiverNet — A network of inertial sensors for real time diver visualization

G. Goodfellow, J. Neasham, Ivor Rendulic 等

2015 10 引用

Recognizing Human Daily Activities From Accelerometer Signal

Jin Wang, Ronghua Chen, Xiangping Sun 等

2011 68 引用

A general method for human activity recognition in video

N. Robertson, I. Reid

2006 196 引用

A Review on Video-Based Human Activity Recognition

Shian-Ru Ke, L. Hoang, Yong-Jin Lee 等

2013 431 引用

Event-based analysis of video

Lihi Zelnik-Manor, M. Irani

2001 510 引用

Decoupled Weight Decay Regularization

I. Loshchilov, F. Hutter

2017 34874 引用

Human activity recognition based on silhouette analysis using Local Binary Patterns

Han Su, Jiayun Zou, Wenjie Wang

2013 5 引用

A spatio-temporal recurrent network for salmon feeding action recognition from underwater videos in aquaculture

H. Måløy, A. Aamodt, E. Misimi

2019 134 引用

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

João Carreira, Andrew Zisserman

2017 9555 引用查看解读 →

Video Action Transformer Network

Rohit Girdhar, João Carreira, Carl Doersch 等

2018 777 引用查看解读 →

Towards Advancing Diver-Robot Interaction Capabilities

Đ. Nađ, Christopher Walker, Igor Kvasić 等

2019 22 引用

DARE: Diver Action Recognition Encoder for Underwater Human–Robot Interaction

Jing Yang, James P. Wilson, Shalabh Gupta

2023 15 引用

A Review of Human Activity Recognition Methods

Michalis Vrigkas, Christophoros Nikou, I. Kakadiaris

2015 530 引用

Underwater Motion and Activity Recognition using Acoustic Wireless Networks

Haochen Hu, Zhi Sun, Lu Su

2020 5 引用

A Survey on Human Activity Recognition using Wearable Sensors

Oscar D. Lara, M. Labrador

2013 2603 引用

Semantically-Aware Diver Activity Recognition Framework for Effective Underwater Multi-Human-Robot Collaboration

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Transformer (变换器)

像素级场景语义 (Pixel-level scene semantics)

UDA数据集 (UDA dataset)

多任务学习 (Multi-task learning)

自注意力机制 (Self-attention mechanism)

Encoder-Decoder结构

多模态感知 (Multimodal perception)

低能见度环境 (Low visibility environment)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

水下潜水员安全监测

自主水下机器人协作

海洋环境监测

远期愿景

智能海洋探索系统

海底应急救援平台

原文摘要

参考文献 (20)

相关论文

Increasing Resilience of Continuum Robots via Motion Planning Algorithms

ARC: Adaptive Robust Joint State and Covariance Estimation

Do as I Do: Dexterous Manipulation Data from Everyday Human Videos

Observability and Consistency Analysis for Visual-Inertial Navigation with Anchored Feature Parameterizations

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问