SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design

TL;DR

SldprtNet是一个包含24.2万工业零件的大规模多模态数据集，用于语义驱动的CAD建模。

cs.RO 🔴 高级 2026-03-13 3 次浏览

Ruogu Li Sikai Li Yao Mu Mingyu Ding

CAD 多模态数据集 3D设计深度学习

核心发现

方法论

SldprtNet数据集通过提供.sldprt和.step格式的3D模型，支持多种训练和测试需求。研究开发了编码器和解码器工具，支持13种CAD命令，实现3D模型与结构化文本表示之间的无损转换。每个样本配有由七个不同视角合成的图像，结合编码器输出的参数化文本，使用轻量级多模态语言模型Qwen2.5-VL-7B生成自然语言描述。

关键结果

结果1：在对比图像加文本输入与仅文本输入的基线模型微调中，图像加文本输入的模型在精确匹配得分上表现出显著优势，具体得分为0.0099，而仅文本输入的模型得分为0.0058。
结果2：在命令级F1得分上，使用多模态输入的模型达到了0.3670，相较于仅文本输入的0.3247，显示出更强的几何语义理解能力。
结果3：在部分匹配率方面，多模态模型的得分为0.6162，超过了仅文本模型的0.5554，表明多模态监督在增强模型性能方面的重要性。

研究意义

SldprtNet数据集在学术界和工业界具有重要意义。它解决了CAD建模任务中长期存在的数据稀缺和多模态对齐问题，为语义驱动的CAD建模和跨模态学习提供了坚实的基础。通过提供丰富的监督信号和多样化的模型复杂性，SldprtNet不仅支持几何深度学习应用，还促进了自然语言与CAD建模之间的桥接，推动了相关领域的研究进展。

技术贡献

SldprtNet的技术贡献在于其多模态数据集的构建，支持精确的几何表示（3D CAD模型）、渲染图像（多视图投影）、结构化建模序列（参数化CAD命令）和自然语言描述的结合。该数据集为理解和生成模型提供了丰富的监督信号，显著提升了模型在语义驱动CAD建模任务中的能力。此外，开发的编码器和解码器工具实现了模型与指令之间的闭环转换，支持数据增强和未来应用的扩展。

新颖性

SldprtNet是首个将多模态数据集应用于语义驱动CAD建模的研究。与现有的3D模型数据集不同，SldprtNet不仅提供了几何信息，还包括多视图图像和自然语言描述，填补了CAD自动化和参数化建模中的空白。相比于其他数据集，SldprtNet在数据规模和多样性上具有显著优势。

局限性

局限1：虽然SldprtNet在多模态对齐和数据规模上具有优势，但其生成的自然语言描述仍需人工校对以确保准确性，这可能影响大规模自动化应用。
局限2：该数据集主要集中于工业零件，可能在其他领域的通用性上受到限制。
局限3：由于数据集的复杂性，训练和推理过程可能需要较高的计算资源。

未来方向

未来的研究方向包括进一步优化自然语言描述的自动生成过程，减少人工校对的需求。此外，可以探索将SldprtNet应用于其他领域的CAD建模任务，扩展其通用性。研究还可以关注如何降低计算资源的需求，以便在更广泛的应用场景中使用该数据集。

AI 总览摘要

计算机辅助设计（CAD）在机械设计和制造中扮演着关键角色，提供了显著的优势。然而，现有的CAD数据集规模较小，无法满足语义驱动的CAD建模任务的需求。为了解决这一问题，研究人员引入了SldprtNet，一个大规模多模态数据集，包含超过24.2万个工业零件，支持语义驱动的CAD建模和几何深度学习应用。

SldprtNet数据集提供了.sldprt和.step格式的3D模型，支持多种训练和测试需求。研究开发了编码器和解码器工具，支持13种CAD命令，实现3D模型与结构化文本表示之间的无损转换。每个样本配有由七个不同视角合成的图像，结合编码器输出的参数化文本，使用轻量级多模态语言模型Qwen2.5-VL-7B生成自然语言描述。

在实验中，研究人员对比了图像加文本输入与仅文本输入的基线模型微调，结果表明，图像加文本输入的模型在精确匹配得分、命令级F1得分和部分匹配率上均表现出显著优势。这表明多模态监督在增强模型性能方面的重要性。

然而，SldprtNet也存在一些局限性。虽然在多模态对齐和数据规模上具有优势，但其生成的自然语言描述仍需人工校对以确保准确性，这可能影响大规模自动化应用。此外，该数据集主要集中于工业零件，可能在其他领域的通用性上受到限制。未来的研究方向包括进一步优化自然语言描述的自动生成过程，减少人工校对的需求，并探索将SldprtNet应用于其他领域的CAD建模任务。

深度分析

研究背景

计算机辅助设计（CAD）在机械设计和制造中扮演着关键角色，提供了显著的优势。与传统的纸质绘图相比，CAD允许直观地可视化零件的形状和尺寸，并简化修改过程。SolidWorks作为一种强大的CAD平台，已成为许多机械设计师的默认选择。其原生的.sldprt格式记录了模型创建过程中使用的特征操作和参数，支持快速迭代和灵活编辑设计。这种基于特征的参数化表示确保了比离散3D格式（如点云或网格）更高的精度和可编辑性。然而，与其他类别的3D模型数据集相比，CAD数据集的独特之处在于每个样本必须使用专业软件手动创建。高质量的CAD建模需要高技能和时间，导致数据集的规模远小于图像或文本数据集。此外，数据数量和质量的限制、注释困难以及缺乏标准化的3D模型参数化表示格式限制了该领域的进展。尽管对大型语言模型（LLM）的兴趣激增，但语义驱动的CAD建模任务研究仍处于早期阶段。

核心问题

现有的CAD数据集规模较小，无法满足语义驱动的CAD建模任务的需求。CAD数据集的独特之处在于每个样本必须使用专业软件手动创建，这需要高技能和时间，导致数据集的规模远小于图像或文本数据集。此外，数据数量和质量的限制、注释困难以及缺乏标准化的3D模型参数化表示格式限制了该领域的进展。这些问题使得尽管对大型语言模型（LLM）的兴趣激增，但语义驱动的CAD建模任务研究仍处于早期阶段。

核心创新

SldprtNet的核心创新在于其多模态数据集的构建，支持精确的几何表示（3D CAD模型）、渲染图像（多视图投影）、结构化建模序列（参数化CAD命令）和自然语言描述的结合。该数据集为理解和生成模型提供了丰富的监督信号，显著提升了模型在语义驱动CAD建模任务中的能力。此外，开发的编码器和解码器工具实现了模型与指令之间的闭环转换，支持数据增强和未来应用的扩展。SldprtNet是首个将多模态数据集应用于语义驱动CAD建模的研究。与现有的3D模型数据集不同，SldprtNet不仅提供了几何信息，还包括多视图图像和自然语言描述，填补了CAD自动化和参数化建模中的空白。

方法详解

SldprtNet数据集的构建和应用方法包括以下几个关键步骤：

�� 数据集构建：收集超过24.2万个工业零件的.sldprt和.step格式3D模型，支持多种训练和测试需求。

�� 编码器和解码器工具：开发支持13种CAD命令的编码器和解码器，实现3D模型与结构化文本表示之间的无损转换。

�� 多模态输入：每个样本配有由七个不同视角合成的图像，结合编码器输出的参数化文本，使用轻量级多模态语言模型Qwen2.5-VL-7B生成自然语言描述。

�� 实验设计：对比图像加文本输入与仅文本输入的基线模型微调，评估多模态监督在增强模型性能方面的效果。

实验设计

为了评估SldprtNet数据集在CAD生成任务中的有效性，研究人员对50,000个样本子集进行了基线模型微调。实验设计包括：

�� 数据集：使用SldprtNet数据集的50,000个样本子集进行实验。

�� 基线模型：对比Qwen2.5-7B（仅使用Encodertext训练）和Qwen2.5-7B-VL（使用图像和Encodertext训练）。

�� 评估指标：使用精确匹配得分、命令级F1得分、参数容差精度和部分匹配率等指标评估模型性能。

�� 消融研究：分析多模态输入对模型性能的影响，验证多模态监督在增强模型性能方面的重要性。

结果分析

实验结果表明，使用多模态输入的Qwen2.5-7B-VL模型在多个关键指标上均优于仅使用文本输入的Qwen2.5-7B模型。具体而言：

�� 精确匹配得分：Qwen2.5-7B-VL模型得分为0.0099，而Qwen2.5-7B模型得分为0.0058，显示出显著优势。

�� 命令级F1得分：Qwen2.5-7B-VL模型达到0.3670，相较于Qwen2.5-7B的0.3247，表明其在几何语义理解能力上的提升。

�� 部分匹配率：多模态模型的得分为0.6162，超过了仅文本模型的0.5554，进一步验证了多模态监督的有效性。

�� 参数容差精度：尽管仅文本模型在参数容差精度上略有优势（0.5016对比0.4630），但这可能反映了其在数值上的过拟合倾向。

应用场景

SldprtNet数据集在多个应用场景中具有潜在价值：

�� 语义驱动的CAD建模：通过自然语言描述生成CAD模型，支持自动化设计和快速原型制作。

�� 跨模态学习：结合几何信息、图像和自然语言描述，促进跨模态学习和推理能力的提升。

�� 工业设计优化：支持复杂工业零件的设计和优化，提高设计效率和精度。

�� 教育和培训：作为教学工具，帮助学生和工程师学习和掌握CAD建模技术。

局限与展望

尽管SldprtNet在多模态对齐和数据规模上具有优势，但其也存在一些局限性：

�� 自然语言描述的生成仍需人工校对以确保准确性，这可能影响大规模自动化应用。

�� 数据集主要集中于工业零件，可能在其他领域的通用性上受到限制。

�� 由于数据集的复杂性，训练和推理过程可能需要较高的计算资源。

未来的研究方向包括进一步优化自然语言描述的自动生成过程，减少人工校对的需求，并探索将SldprtNet应用于其他领域的CAD建模任务。

通俗解读非专业人士也能看懂

想象一下你在厨房里做菜。你有一份食谱，详细描述了每一步骤和所需的食材。这就像CAD模型中的参数化命令，每个命令都是制作菜肴的一步。SldprtNet就像是一个大型的食谱库，包含了各种菜肴的详细制作步骤和图片。通过这些食谱，你可以学习如何制作不同的菜肴，并根据自己的口味进行调整。

在这个过程中，编码器就像是一个翻译器，将复杂的菜谱步骤转换成简单易懂的文字说明。而解码器则是一个厨师，根据这些说明一步步制作出美味的菜肴。通过这种方式，你不仅可以学习如何制作菜肴，还可以根据自己的需求进行创新和改进。

SldprtNet的独特之处在于它不仅提供了详细的菜谱步骤，还包括了每道菜的图片和描述，这就像是你在制作菜肴时可以参考的视觉指南。通过结合这些信息，你可以更好地理解和掌握菜肴的制作过程，并根据自己的需求进行调整和优化。

总之，SldprtNet就像是一个大型的厨房食谱库，通过提供详细的步骤、图片和描述，帮助你更好地理解和掌握CAD建模的过程，并进行创新和改进。

简单解释像给14岁少年讲一样

嘿，小伙伴们！今天我们来聊聊一个叫SldprtNet的酷东西。想象一下，你在玩一个超大的乐高积木游戏，这个游戏里有各种各样的积木模型，每个模型都有详细的搭建说明和图片。这些说明就像是你在游戏中用来搭建积木的步骤，而图片则是你搭建完成后可以参考的样子。

SldprtNet就是这样一个超级大的积木库，里面有超过24.2万个工业零件的模型，每个模型都有详细的搭建步骤和图片。通过这些信息，你可以学习如何搭建不同的模型，并根据自己的想法进行创新和改进。

在这个过程中，有两个重要的工具：编码器和解码器。编码器就像是一个翻译器，把复杂的搭建步骤转换成简单易懂的文字说明。而解码器则是一个搭建高手，根据这些说明一步步搭建出完整的模型。

总之，SldprtNet就像是一个大型的乐高积木库，通过提供详细的步骤、图片和描述，帮助你更好地理解和掌握模型的搭建过程，并进行创新和改进。是不是很酷呢？

术语表

CAD (计算机辅助设计)

计算机辅助设计是一种使用计算机软件进行设计和文档编制的技术，广泛应用于工程、建筑和制造业。

在本文中，CAD用于创建和编辑工业零件的3D模型。

SldprtNet

SldprtNet是一个大规模多模态数据集，包含超过24.2万个工业零件的3D模型，用于语义驱动的CAD建模。

SldprtNet是本文研究的核心数据集，支持多模态学习和推理。

多模态 (Multimodal)

多模态指的是结合多种不同类型的数据（如文本、图像和音频）进行分析和处理的能力。

本文中，多模态指的是结合3D模型、图像和自然语言描述进行学习和推理。

编码器 (Encoder)

编码器是一种将输入数据转换为另一种格式的工具，在本文中用于将CAD模型转换为结构化文本表示。

编码器用于将.sldprt文件转换为参数化文本表示。

解码器 (Decoder)

解码器是一种将编码数据转换回原始格式的工具，在本文中用于从结构化文本重建CAD模型。

解码器用于从参数化文本重建3D模型。

Qwen2.5-VL-7B

Qwen2.5-VL-7B是一种轻量级多模态语言模型，用于生成自然语言描述。

Qwen2.5-VL-7B用于结合图像和文本生成零件的外观和功能描述。

参数化 (Parametric)

参数化指的是使用参数和变量来定义和控制模型的几何形状和特征。

在本文中，参数化用于描述CAD模型的特征和操作。

自然语言描述 (Natural Language Description)

自然语言描述是使用人类语言对物体或过程进行的描述，易于理解和交流。

本文中，自然语言描述用于描述3D模型的外观和功能。

特征树 (Feature Tree)

特征树是CAD模型中用于组织和管理特征和操作的层次结构。

特征树用于记录模型创建过程中使用的特征和参数。

几何深度学习 (Geometric Deep Learning)

几何深度学习是一种结合几何信息和深度学习技术进行分析和处理的方法。

本文中，几何深度学习用于分析和处理3D模型数据。

开放问题这项研究留下的未解疑问

1 开放问题1：如何进一步优化自然语言描述的自动生成过程，减少人工校对的需求？现有方法在生成准确性和一致性上仍存在挑战，需要更先进的生成模型和算法。
2 开放问题2：如何将SldprtNet应用于其他领域的CAD建模任务，扩展其通用性？现有数据集主要集中于工业零件，可能在其他领域的应用上受到限制。
3 开放问题3：如何降低训练和推理过程中的计算资源需求，以便在更广泛的应用场景中使用SldprtNet？现有方法可能需要高计算资源，限制了其在资源有限环境中的应用。
4 开放问题4：如何在多模态学习中更好地结合几何信息、图像和自然语言描述，提升跨模态学习和推理能力？现有方法在多模态对齐和融合上仍有改进空间。
5 开放问题5：如何在SldprtNet中引入更多的功能级语义注释，以支持功能感知生成和抽象？现有数据集主要关注几何和结构信息，缺乏功能级别的语义注释。

应用场景

近期应用

工业设计优化

SldprtNet可以用于优化工业零件的设计，提高设计效率和精度。设计师可以通过数据集提供的多模态信息快速生成和调整设计方案。

教育和培训

作为教学工具，SldprtNet可以帮助学生和工程师学习和掌握CAD建模技术。通过详细的步骤和描述，用户可以更好地理解和应用CAD建模。

自动化设计

通过自然语言描述生成CAD模型，SldprtNet支持自动化设计和快速原型制作，缩短设计周期并提高生产效率。

远期愿景

跨领域应用

SldprtNet的多模态特性使其在建筑、航空航天等领域的CAD建模中具有潜在应用价值。通过扩展数据集的通用性，可以支持更多领域的设计和优化。

智能设计系统

结合SldprtNet的数据和模型，可以开发智能设计系统，实现从设计到生产的全流程自动化和优化，提高整体生产效率和质量。

原文摘要

We introduce SldprtNet, a large-scale dataset comprising over 242,000 industrial parts, designed for semantic-driven CAD modeling, geometric deep learning, and the training and fine-tuning of multimodal models for 3D design. The dataset provides 3D models in both .step and .sldprt formats to support diverse training and testing. To enable parametric modeling and facilitate dataset scalability, we developed supporting tools, an encoder and a decoder, which support 13 types of CAD commands and enable lossless transformation between 3D models and a structured text representation. Additionally, each sample is paired with a composite image created by merging seven rendered views from different viewpoints of the 3D model, effectively reducing input token length and accelerating inference. By combining this image with the parameterized text output from the encoder, we employ the lightweight multimodal language model Qwen2.5-VL-7B to generate a natural language description of each part's appearance and functionality. To ensure accuracy, we manually verified and aligned the generated descriptions, rendered images, and 3D models. These descriptions, along with the parameterized modeling scripts, rendered images, and 3D model files, are fully aligned to construct SldprtNet. To assess its effectiveness, we fine-tuned baseline models on a dataset subset, comparing image-plus-text inputs with text-only inputs. Results confirm the necessity and value of multimodal datasets for CAD generation. It features carefully selected real-world industrial parts, supporting tools for scalable dataset expansion, diverse modalities, and ensured diversity in model complexity and geometric features, making it a comprehensive multimodal dataset built for semantic-driven CAD modeling and cross-modal learning.

cs.RO cs.CV

参考文献 (20)

SketchGen: Generating Constrained CAD Sketches

W. Para, Shariq Farooq Bhat, Paul Guerrero 等

2021 95 引用查看解读 →

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Ze Liu, Yutong Lin, Yue Cao 等

2021 30308 引用查看解读 →

A Learning Algorithm for Continually Running Fully Recurrent Neural Networks

Ronald J. Williams, D. Zipser

1989 4947 引用

Hierarchical Neural Coding for Controllable CAD Model Generation

Xiang Xu, P. Jayaraman, J. Lambourne 等

2023 76 引用查看解读 →

Mistral 7B

Albert Qiaochu Jiang, Alexandre Sablayrolles, Arthur Mensch 等

2023 3189 引用查看解读 →

ScanNet: Richly-Annotated 3D Reconstructions of Indoor Scenes

Angela Dai, Angel X. Chang, M. Savva 等

2017 5137 引用查看解读 →

CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation

Anna C. Doris, Md Ferdous Alam, A. Nobari 等

2025 16 引用查看解读 →

Thingi10K: A Dataset of 10, 000 3D-Printing Models

Qingnan Zhou, Alec Jacobson

2016 480 引用查看解读 →

Text2CAD: Generating Sequential CAD Models from Beginner-to-Expert Level Text Prompts

Mohammad Sadil Khan, Sankalp Sinha, T. Sheikh 等

2024 18 引用查看解读 →

ABC: A Big CAD Model Dataset for Geometric Deep Learning

Sebastian Koch, A. Matveev, Zhongshi Jiang 等

2018 602 引用查看解读 →

Magic3D: High-Resolution Text-to-3D Content Creation

Chen-Hsuan Lin, Jun Gao, Luming Tang 等

2022 1488 引用查看解读 →

SyncSpecCNN: Synchronized Spectral CNN for 3D Shape Segmentation

L. Yi, Hao Su, Xingwen Guo 等

2016 487 引用查看解读 →

ShapeNet: An Information-Rich 3D Model Repository

Angel X. Chang, T. Funkhouser, L. Guibas 等

2015 6246 引用查看解读 →

Construction and optimization of CSG representations

V. Shapiro, D. Vossler

1991 104 引用

Neurosymbolic Models for Computer Graphics

Daniel Ritchie, Paul Guerrero, R. K. Jones 等

2023 40 引用查看解读 →

SketchGraphs: A Large-Scale Dataset for Modeling Relational Geometry in Computer-Aided Design

Ari Seff, Yaniv Ovadia, Wenda Zhou 等

2020 83 引用查看解读 →

'CADSketchNet' - An Annotated Sketch dataset for 3D CAD Model Retrieval with Deep Neural Networks

Bharadwaj Manda, Shubham Dhayarkar, Sai Mitheran 等

2021 29 引用查看解读 →

PolyGen: An Autoregressive Generative Model of 3D Meshes

Charlie Nash, Yaroslav Ganin, A. Eslami 等

2020 328 引用查看解读 →

3D ShapeNets: A deep representation for volumetric shapes

Zhirong Wu, Shuran Song, A. Khosla 等

2014 6272 引用

T3Bench: Benchmarking Current Progress in Text-to-3D Generation

Yuze He, Yushi Bai, Matthieu Lin 等

2023 59 引用查看解读 →

SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

CAD (计算机辅助设计)

SldprtNet

多模态 (Multimodal)

编码器 (Encoder)

解码器 (Decoder)

Qwen2.5-VL-7B

参数化 (Parametric)

自然语言描述 (Natural Language Description)

特征树 (Feature Tree)

几何深度学习 (Geometric Deep Learning)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

工业设计优化

教育和培训

自动化设计

远期愿景

跨领域应用

智能设计系统

原文摘要

参考文献 (20)

相关论文

A Feasibility-Enhanced Control Barrier Function Method for Multi-UAV Collision Avoidance

Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

From Passive Monitoring to Active Defence: Resilient Control of Manipulators Under Cyberattacks

Route Fragmentation Based on Resource-centric Prioritisation for Efficient Multi-Robot Path Planning in Agricultural Environments

$Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

HumDex:Humanoid Dexterous Manipulation Made Easy

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问