Towards Effective Waste Segmentation for Automated Waste Recycling in Cluttered Background

TL;DR

提出一种结合空间和频域的EWSegNet，用于复杂背景下的废弃物分割，显著提升效率和精度。

cs.CV 🔴 高级 2026-06-12 49 次浏览

Mamoona Javaid Mubashir Noman Abdul Hannan Shah Nawaz Mustansar Fiaz Sajid Ghuffar

深度学习图像分割频域分析自动化回收复杂场景

核心发现

方法论

本文提出的EWSegNet是一种端到端的废弃物分割网络，核心思想是结合空间域和频域特征以增强模型性能。网络由编码器、辅助特征增强模块（AFEM）和解码器组成。编码器采用多尺度特征提取的EWFE层，包括空间上下文模块（SCM）和频域上下文模块（FCM），前者通过5×5组卷积捕获局部空间关系，后者利用傅里叶变换实现全局频域关系建模。AFEM在第三阶段特征基础上，通过差分高斯滤波强调边界信息，并利用池化注意力增强Blob区域。模型在ZeroWaste-aug、ZeroWaste-f和SpectralWaste三个公开数据集上进行训练和验证，采用mIoU和像素准确率作为性能指标。训练过程中使用AdamW优化器，结合数据增强策略，确保模型在复杂场景中的鲁棒性。

关键结果

在ZeroWaste-f数据集上，EWSegNet实现了56.44%的mIoU，参数量仅为23.3M，推理延迟64.8毫秒，优于现有方法COSNet（56.67%）在参数和速度上的优势，且在金属类物体的IoU提升至35.05%，比前沿模型提升5.44%。
在ZeroWaste-aug数据集上，EWSegNet的mIoU达到73.10%，比最新的LWCHNet（63.16%）高出近10个百分点，显示出在类别不平衡和增强场景中的优越性。
在SpectralWaste数据集上，模型获得74.10%的mIoU，优于传统深度网络和Transformer变体，特别是在薄片和细长物体的分割任务中表现出色，整体性能提升显著。

研究意义

该研究突破了传统空间卷积在全局关系建模中的局限，通过频域特征引入实现高效全局上下文捕获，为自动化废弃物分拣提供了更为精准和高效的技术支撑。其在复杂背景下的优越表现，为智能回收系统的普及奠定了基础，有助于解决城市固废快速增长带来的环境压力。该方法兼顾模型复杂度与性能，为未来工业级应用提供了可行路径。

技术贡献

本文的主要技术创新在于提出频域上下文模块（FCM）和空间上下文模块（SCM）相结合的多尺度特征提取策略，显著提升模型对全局和局部信息的捕获能力。引入的AFEM通过差分高斯滤波和池化注意力机制，有效增强边界和Blob区域，改善复杂场景下的分割效果。此外，模型采用高效的EWFE层，减少参数量和计算成本，兼顾性能与效率。该架构在保证高精度的同时，显著降低了模型复杂度，为工业应用提供了可行的解决方案。

新颖性

本研究首次将频域傅里叶变换引入废弃物分割任务中，结合空间特征和频域特征实现多尺度、多角度的全局关系建模。与传统空间卷积方法相比，频域模块在捕获全局关系时具有更高的计算效率和更强的表达能力。AFEM的设计创新在于利用差分高斯滤波强调边界信息，结合Blob区域增强，显著改善了复杂背景下的分割性能。这些创新共同推动了废弃物自动分割技术的边界，填补了频域分析在此领域的应用空白。

局限性

尽管模型在复杂背景下表现优异，但在极端遮挡或极度相似的物体类别中仍存在误分割的情况，说明模型对细节的敏感性有待提升。
频域模块虽然提升了全局关系建模能力，但在极大尺度变化或高频噪声较多的场景中，可能会引入干扰，影响分割精度。
模型训练依赖大量标注数据，且在不同场景迁移时仍需调优，存在一定的泛化局限性。未来需探索无监督或弱监督的训练策略。

未来方向

未来工作将聚焦于模型的轻量化与泛化能力提升，探索多模态融合（如激光雷达、红外等）以增强复杂环境下的鲁棒性。同时，考虑引入自监督学习机制，减少对大量标注数据的依赖，推动模型在实际工业场景中的部署。此外，将结合强化学习优化分割策略，实现动态场景中的实时适应和优化。

AI 总览摘要

随着城市化进程的加快，固体废弃物的产生速度也在不断攀升，给环境和资源管理带来了巨大压力。传统的废弃物分类和回收方式依赖人工，效率低、成本高，难以应对日益增长的废弃物规模。近年来，深度学习技术的快速发展为自动化废弃物识别提供了新的解决方案，但现有方法在复杂背景和多样化物体形态面前仍存在性能瓶颈。

为解决这一难题，本文提出了一种名为EWSegNet的创新型废弃物分割网络，结合空间域和频域特征，显著提升了在复杂场景中的分割效果。该网络由多尺度编码器、辅助特征增强模块（AFEM）和解码器组成。编码器采用高效的EWFE层，集成空间上下文模块（SCM）和频域上下文模块（FCM），前者通过局部空间关系捕获细节，后者利用傅里叶变换实现全局频域关系建模。AFEM在第三阶段特征基础上，通过差分高斯滤波强调边界信息，并利用池化注意力增强Blob区域，从而改善复杂背景下的分割效果。

在ZeroWaste-aug、ZeroWaste-f和SpectralWaste三个公开数据集上的广泛实验表明，EWSegNet在保持较低参数量（23.3M）和推理延迟（64.8毫秒）的同时，实现了优异的性能。具体而言，在ZeroWaste-f上达到56.44%的mIoU，优于部分现有方法；在ZeroWaste-aug上实现73.10%的mIoU，超越最新模型LWCHNet；在SpectralWaste上获得74.10%的mIoU，特别是在细长和薄片物体的场景中表现出色。这些结果充分验证了模型在复杂、多变环境中的适应性和优越性。

该研究的意义在于突破了传统空间卷积的局限，通过引入频域分析实现全局关系的高效建模，为自动化废弃物回收提供了更为精准和高效的技术路径。其创新设计不仅提升了分割精度，也兼顾了模型的计算效率，为工业级应用提供了可行的解决方案。未来，模型将继续优化轻量化设计，结合多模态信息，增强泛化能力，推动智能回收系统的普及与发展。

深度分析

研究背景

近年来，随着城市化进程的加快，固体废弃物的产生量呈指数级增长，带来了严重的环境污染和资源浪费问题。传统的废弃物分类主要依赖人工操作，效率低、成本高，难以满足现代城市管理的需求。深度学习技术的崛起，为自动化废弃物识别提供了新的可能。早期的研究多采用卷积神经网络（CNN）如DenseNet、EfficientNet等进行废弃物分类，但在复杂背景和多样化物体形态面前，性能仍有限。近年来，目标检测模型如YOLO系列被引入，用于快速识别废弃物，但在遮挡、透明或细长物体的场景中表现不佳。为应对这些挑战，ZeroWaste和SpectralWaste等公开数据集的出现，为研究提供了丰富的场景和类别多样性。尽管如此，现有方法在全局关系建模和边界细节增强方面仍存在不足，亟需创新架构以提升复杂环境下的分割性能。

核心问题

现有废弃物分割方法在复杂背景、遮挡和多尺度物体识别方面表现有限，尤其是在透明、细长或变形物体的场景中，模型难以准确捕获边界和全局关系。传统空间卷积受限于局部感受野，难以有效建模全局依赖，而频域方法虽能捕获全局信息，但计算成本较高且难以集成到端到端训练中。此外，复杂背景中的边界模糊和Blob区域不明显，导致分割精度下降。如何设计一种高效、鲁棒的模型，兼顾局部细节和全局关系，成为当前研究的核心难题。

核心创新

本文的创新点主要体现在以下几个方面：

1) 频域上下文模块（FCM）：利用傅里叶变换将特征映射转换到频域，通过频域内的乘法操作实现全局关系建模，提升全局信息捕获效率，优于传统空间卷积的方法。

2) 空间上下文模块（SCM）：采用多尺度局部卷积（5×5组卷积）结合通道注意力机制，增强局部空间关系的表达能力。

3) 多尺度编码架构：通过逐层提取多尺度特征，结合频域和空间信息，实现对不同尺度物体的鲁棒分割。

4) 边界和Blob区域增强：引入AFEM，利用差分高斯滤波强调边界细节，结合池化注意力机制突出Blob区域，有效改善复杂背景下的边界模糊问题。

5) 高效参数设计：采用轻量化的EWFE层，减少模型参数和计算量，兼顾性能和效率，为工业应用提供可行方案。

方法详解

�� 编码器由四个阶段组成，每个阶段包含多个EWFE层，用于多尺度特征提取。每个阶段前通过卷积层下采样，逐步提取不同尺度的特征。
�� 每个EWFE层集成空间上下文模块（SCM）和频域上下文模块（FCM），前者通过局部空间关系增强特征，后者利用傅里叶变换实现全局关系建模。
�� 在第三阶段，利用AFEM对特征进行边界和Blob区域增强。AFEM包括差分高斯滤波（强调边界）和池化注意力（突出Blob区域），提升特征表达能力。
�� 编码器输出多尺度特征与AFEM增强特征结合，输入到解码器中进行像素级分割。
�� 损失函数采用交叉熵，训练过程中结合数据增强（随机裁剪、缩放、水平翻转）以提升模型泛化能力。
�� 模型在ZeroWaste和SpectralWaste数据集上进行训练，采用AdamW优化器，学习率5e-5，训练40k次迭代，确保模型充分学习复杂场景中的细节。

实验设计

实验采用ZeroWaste-f、ZeroWaste-aug和SpectralWaste三个公开数据集，分别涵盖不同复杂度和场景。模型在训练时使用随机裁剪、缩放和水平翻转等数据增强策略，优化器为AdamW，学习率设定为5e-5，训练40k轮。评估指标包括平均交并比（mIoU）和像素准确率。对比基线模型包括DeepLabv3+、FANet和COSNet，通过参数量、推理速度和性能指标进行全面评估。还进行了消融实验，验证频域模块、空间模块和AFEM的贡献。模型在不同场景下的鲁棒性和泛化能力也被测试，确保其在实际工业环境中的适用性。

结果分析

在ZeroWaste-f数据集上，EWSegNet实现了56.44%的mIoU，参数量为23.3M，推理延迟64.8毫秒，优于COSNet（56.67%）在参数和速度上的优势，尤其在金属物体的IoU达35.05%，比前沿模型提升5.44%。在ZeroWaste-aug上，模型达到73.10%的mIoU，超越LWCHNet（63.16%）近10个百分点，显示出在类别不平衡和增强场景中的优越性。在SpectralWaste数据集上，模型获得74.10%的mIoU，特别是在细长和薄片物体的场景中表现出色，整体性能优于传统深度网络和Transformer变体。这些结果验证了模型在复杂、多变环境中的优越表现和实用潜力。

应用场景

该模型适用于城市固废自动分拣、智能回收站、工业废弃物监测等场景。只需配备摄像头和少量计算资源，即可实现高效、准确的废弃物识别与分割，提升回收效率，减少人工成本。未来还可结合机器人自动操作，实现全流程自动化。长远来看，该技术有望推动智能城市建设，助力环境保护和资源再利用，成为智慧城市的重要组成部分。

局限与展望

尽管模型在多场景下表现优异，但在极端遮挡、极小或极相似的物体类别中仍存在误差，说明对细节的敏感性有待提升。此外，频域模块在高噪声或极大尺度变化的场景中可能引入干扰，影响分割效果。模型训练依赖大量标注数据，泛化能力在不同场景迁移时仍需调优，未来需探索无监督或弱监督学习方法以增强适应性。模型的计算成本虽已优化，但在超大规模场景中仍存在一定局限，需进一步简化架构以实现边缘设备部署。

通俗解读非专业人士也能看懂

想象你在一个大型工厂里工作，工厂里有很多不同的机器和材料。每当需要分类和整理这些材料时，工人们会用手工逐一检查，既费时又容易出错。现在，假设你有一个聪明的机器人助手，它可以快速扫描整个工厂，自动识别不同的材料，比如金属、塑料或纸板。这个机器人不仅能看到表面，还能通过特殊的“魔法眼”——一种可以在不同频率下观察的技术——理解材料的整体结构和细节。它会用不同的“眼睛”观察局部细节和全局关系，确保每个材料都被正确分类。这个机器人还会用特殊的“放大镜”强调边缘和细节，让分类变得更准确。通过这种结合局部细节和全局信息的方式，机器人可以在复杂、繁杂的环境中快速、准确地完成任务。这就像你用放大镜和全景相机同时观察一个复杂的拼图，确保每一块都拼得完美无误。

简单解释像给14岁少年讲一样

想象你在学校的食堂里吃饭，桌子上有各种不同的食物。有时候，食物被放得很乱，有的还被遮挡住了。你要找出所有的水果、面包和饮料，真的很难特别快。现在，假设你有一个超级聪明的朋友，他可以用特别的眼睛帮你看清楚每一样东西。这个朋友不仅能用普通的眼睛看到，还能用一种特殊的“魔法眼”来看全景，知道每个食物的整体位置和细节。比如，他能看到水果的边缘很清楚，还能看到它们在桌子上的具体位置。这个朋友还会用放大镜强调水果的边缘，让你更容易分辨。这样一来，无论食堂多么乱，他都能帮你很快找到所有的水果、面包和饮料。这个故事就像论文里的新技术，它用特殊的方法结合了局部细节和整体关系，让机器变得更聪明，能在复杂的环境中准确找到想要的东西。

术语表

深度学习 (Deep Learning)

一种通过模拟人脑神经网络进行学习的机器学习方法，能自动提取数据中的特征，用于图像识别、分类等任务。

在论文中，深度学习用于训练废弃物分割模型，实现自动识别和分割。

傅里叶变换 (Fourier Transform)

一种数学变换，将空间或时间域信号转换到频域，便于分析信号中的频率成分。

在本文中，用于频域上下文模块（FCM）中，捕获全局关系。

mIoU (Mean Intersection over Union)

衡量图像分割准确率的指标，计算预测区域与真实区域的交集与并集之比的平均值。

作为主要性能指标，用于评估模型在不同数据集上的分割效果。

EWFE层 (Efficient Waste Feature Extraction Layer)

一种高效的特征提取层，集成空间和频域模块，提升多尺度特征表达能力。

作为编码器的核心组成部分，用于提取丰富的特征信息。

AFEM (Auxiliary Feature Enhancement Module)

辅助特征增强模块，通过差分高斯滤波和注意力机制，强调边界和Blob区域。

在第三阶段特征基础上增强边界信息，改善复杂背景下的分割性能。

频域上下文模块 (Frequency Context Module, FCM)

利用傅里叶变换在频域捕获全局关系的模块，提高模型对全局信息的感知能力。

增强模型在复杂场景中的全局关系建模。

空间上下文模块 (Spatial Context Module, SCM)

通过局部空间关系和注意力机制提取空间特征，强化局部细节表达。

提升模型对细节和局部关系的捕获能力。

差分高斯滤波 (Difference of Gaussian, DoG)

一种边缘检测技术，通过两个不同尺度的高斯模糊图像差分，突出边界信息。

在AFEM中用于强调物体边界。

多尺度特征 (Multi-scale features)

在不同尺度上提取的特征信息，用于增强模型对不同大小物体的识别能力。

通过多层编码器实现多尺度特征提取。

池化注意力 (Pooled Attention)

结合池化操作和注意力机制，突出重要区域或特征。

在Blob区域增强中应用，突出关键区域。

开放问题这项研究留下的未解疑问

1 尽管频域特征提升了全局关系建模能力，但在极端噪声环境或超大尺度变化的场景中，模型的鲁棒性仍需验证。未来应探索更强的频域滤波机制和多模态融合策略，以应对更复杂的实际应用需求。
2 模型在遮挡和极小物体识别方面仍存在不足，尤其是在密集场景中，如何进一步提升边界细节的捕获能力，是未来研究的重点。
3 当前训练依赖大量标注数据，迁移到不同场景时仍需调优。未来应结合无监督或弱监督学习方法，提升模型的泛化能力和适应性。
4 模型在极端复杂环境中的实时性和部署效率仍需优化，尤其是在边缘设备和低算力平台上的应用，未来需设计更轻量化的架构。
5 多模态信息融合（如激光雷达、红外成像）在废弃物识别中的潜力尚未充分挖掘，未来可结合多源数据提升模型鲁棒性。

应用场景

近期应用

城市固废自动分拣系统

结合摄像头和EWSegNet模型，实现城市固废的自动识别与分类，提升回收效率，减少人工成本，适用于智能回收站和垃圾处理厂。

工业废弃物监测

部署在工业现场，通过高精度图像分割监控废弃物状态，辅助环境监管和资源回收，提升工业环保水平。

智能垃圾桶

在公共场所设置智能垃圾桶，利用模型自动识别投放废弃物类型，优化分类和回收流程。

远期愿景

智慧城市环境管理

结合多模态传感器和AI模型，构建全方位的城市环境监测体系，实现废弃物的实时动态管理和智能调度。

全自动回收机器人

研发具备自主识别和分拣能力的机器人，实现废弃物的全流程自动化处理，推动绿色可持续发展。

原文摘要

Rapid expansion of urban areas and population growth is causing an immense increase in waste production, which demands the need for efficient and automated waste management. In this scenario, automated waste recycling (AWR) using deep learning methods can assist humans in optimal waste management. Recent deep learning approaches for AWR provide promising waste segmentation performance, however, these methods rely on large backbone networks that are inefficient for AWR systems and suffer from performance deterioration in cluttered scenes. To this end, an optimal waste segmentation network is introduced which effectively utilizes the spatial domain to capture localized structural dependencies and the spectral domain to efficiently extract global contextual relationships. This cascaded design allows the network to progressively leverage both local and global representations across complementary domains to highlight the semantic information necessary for effective segmentation of various waste objects. Furthermore, auxiliary feature enhancement module (AFEM) is introduced to enhance the target objects' boundaries and blob amplification for better segmentation in cluttered scenarios. Extensive experimentation on ZeroWaste-aug, ZeroWaste-f and SpectralWaste datasets reveals the merits of the proposed method.

cs.CV

参考文献 (20)

COSNet: A Novel Semantic Segmentation Network using Enhanced Boundaries in Cluttered Scenes

Muhammad Ali, Mamoona Javaid, Mubashir Noman 等

2024 4 引用 ⭐ 高影响力查看解读 →

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

Liang-Chieh Chen, Yukun Zhu, G. Papandreou 等

2018 16760 引用 ⭐ 高影响力查看解读 →

PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers

Jiacong Xu, Zixiang Xiong, S. Bhattacharyya

2022 560 引用 ⭐ 高影响力查看解读 →

Lightweight context-awareness hybrid-attention network for waste segmentation in cluttered scenes

Yangke Li, Xinman Zhang

1 引用 ⭐ 高影响力

Head-Free Lightweight Semantic Segmentation with Linear Transformer

B. Dong, Pichao Wang, Fan Wang

2023 135 引用 ⭐ 高影响力查看解读 →

ZeroWaste Dataset: Towards Deformable Object Segmentation in Cluttered Scenes

D. Bashkirova, Mohamed Abdelfattah, Ziliang Zhu 等

2021 87 引用 ⭐ 高影响力查看解读 →

FeedFormer: Revisiting Transformer Decoder for Efficient Semantic Segmentation

J. Shim, Hyunwoo Yu, Kyeongbo Kong 等

2023 63 引用 ⭐ 高影响力

Deep Dual-Resolution Networks for Real-Time and Accurate Semantic Segmentation of Traffic Scenes

Huihui Pan, Yuanduo Hong, Weichao Sun 等

2023 411 引用 ⭐ 高影响力

FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background

Muhammad Ali, Mamoona Javaid, Mubashir Noman 等

2024 13 引用 ⭐ 高影响力查看解读 →

TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation

Wenqiang Zhang, Zilong Huang, Guozhong Luo 等

2022 292 引用 ⭐ 高影响力查看解读 →

An Intelligent Waste-Sorting and Recycling Device Based on Improved EfficientNet

Zhicheng Feng, Jie Yang, Lifang Chen 等

2022 50 引用 ⭐ 高影响力

SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

Qiang Wan, Zilong Huang, Jiachen Lu 等

2023 182 引用 ⭐ 高影响力

SpectralWaste Dataset: Multimodal Data for Waste Sorting Automation

Sara Casao, Fernando Peña, Alberto Sabater 等

2024 13 引用 ⭐ 高影响力查看解读 →

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Enze Xie, Wenhai Wang, Zhiding Yu 等

2021 8388 引用查看解读 →

Intensity Transformation and Spatial Filtering

Q. Hamarsheh, S. L-1-r

2012 34 引用

Scale-Aware Trident Networks for Object Detection

Yanghao Li, Yuntao Chen, Naiyan Wang 等

2019 1045 引用查看解读 →

ImageNet: A large-scale hierarchical image database

Jia Deng, Wei Dong, R. Socher 等

2009 73751 引用

Bootstrapping Semantic Segmentation with Regional Contrast

Shikun Liu, Shuaifeng Zhi, Edward Johns 等

2021 157 引用查看解读 →

Focal Modulation Networks

Jianwei Yang, Chunyuan Li, Jianfeng Gao

2022 445 引用查看解读 →

MiniNet: An Efficient Semantic Segmentation ConvNet for Real-Time Robotic Applications

Iñigo Alonso, Luis Riazuelo, A. C. Murillo

2020 52 引用

Towards Effective Waste Segmentation for Automated Waste Recycling in Cluttered Background

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

深度学习 (Deep Learning)

傅里叶变换 (Fourier Transform)

mIoU (Mean Intersection over Union)

EWFE层 (Efficient Waste Feature Extraction Layer)

AFEM (Auxiliary Feature Enhancement Module)

频域上下文模块 (Frequency Context Module, FCM)

空间上下文模块 (Spatial Context Module, SCM)

差分高斯滤波 (Difference of Gaussian, DoG)

多尺度特征 (Multi-scale features)

池化注意力 (Pooled Attention)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

城市固废自动分拣系统

工业废弃物监测

智能垃圾桶

远期愿景

智慧城市环境管理

全自动回收机器人

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问