Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

TL;DR

使用结构化链接数据作为记忆层，提升RAG系统的检索准确性，标准RAG提高29.6%，agentic管线提高29.8%。

cs.IR 🔴 高级 2026-03-11 12 次浏览

Andrea Volpini Elie Raad Beatrice Gamba David Riccitelli

结构化数据知识图谱 RAG系统检索增强人工智能代理

核心发现

方法论

本文提出了一种利用结构化链接数据作为记忆层的方法，旨在提高检索增强生成（RAG）系统的检索准确性和答案质量。研究使用了Schema.org标记和可解引用的实体页面，结合Vertex AI Vector Search 2.0和Google Agent Development Kit (ADK)进行实验。实验设计包括七种条件，涵盖三种文档表示和两种检索模式，外加一种增强+条件。

关键结果

结果1：在标准RAG系统中，使用增强的实体页面格式（包括llms.txt风格的代理指令、面包屑导航和神经搜索功能）使检索准确性提高了29.6%。
结果2：在完整的agentic管线中，增强的实体页面格式使检索准确性提高了29.8%，显示出结构化数据在多跳链接遍历中的优势。
结果3：增强+变体在准确性和完整性上获得了最高的绝对分数（准确性：4.85/5，完整性：4.55/5），尽管相较于基础增强格式的增益在统计上并不显著。

研究意义

本研究表明，结构化链接数据可以显著提高RAG系统的性能，尤其是在需要多源信息整合的复杂检索任务中。通过利用Schema.org标记和知识图谱，本文的方法为信息检索和生成提供了新的视角，可能对学术界和工业界产生深远影响，尤其是在需要高精度和高完整性的应用场景中。

技术贡献

本文的技术贡献在于提出了一种利用结构化链接数据作为记忆层的新方法，与现有的RAG系统相比，显著提高了检索准确性和答案质量。通过引入增强的实体页面格式，本文展示了如何在不构建图的情况下利用知识图谱进行多跳链接遍历，提供了新的工程可能性。

新颖性

本文首次将结构化链接数据作为RAG系统的记忆层，显著提高了检索性能。与现有的RAG系统相比，本文的方法通过增强的实体页面格式有效利用了知识图谱中的结构化数据，提供了新的信息整合方式。

局限性

局限1：虽然增强+变体在绝对分数上表现最佳，但相较于基础增强格式的增益在统计上并不显著，表明在某些情况下，进一步的导航功能可能不会带来显著的性能提升。
局限2：实验结果可能受到特定领域数据集的影响，尤其是在知识图谱信息丰富的领域中，效果更为显著。
局限3：由于实验设计的复杂性，结果的可重复性可能受到限制，尤其是在不同的知识图谱和数据平台上。

未来方向

未来的研究方向包括探索如何在更广泛的领域中应用结构化链接数据作为记忆层，进一步优化增强的实体页面格式，以及开发更高效的多跳链接遍历算法。此外，研究还可以扩展到其他类型的结构化数据和知识图谱，以验证本文方法的普适性。

AI 总览摘要

在信息检索领域，检索增强生成（RAG）系统已经成为主流架构，然而大多数系统将文档视为非结构化文本，忽略了知识图谱提供的丰富结构化元数据和链接关系。本文提出了一种利用结构化链接数据作为记忆层的方法，旨在提高RAG系统的检索准确性和答案质量。

通过使用Schema.org标记和可解引用的实体页面，结合Vertex AI Vector Search 2.0和Google Agent Development Kit (ADK)，本文在四个领域（编辑、法律、旅游、电子商务）中进行了实验。实验设计包括七种条件，涵盖三种文档表示和两种检索模式，外加一种增强+条件。

实验结果显示，虽然仅使用JSON-LD标记只能带来适度的改进，但增强的实体页面格式显著提高了检索准确性：标准RAG系统提高了29.6%，完整的agentic管线提高了29.8%。增强+变体在准确性和完整性上获得了最高的绝对分数，尽管相较于基础增强格式的增益在统计上并不显著。

本文的方法为信息检索和生成提供了新的视角，可能对学术界和工业界产生深远影响，尤其是在需要高精度和高完整性的应用场景中。通过利用结构化链接数据，本文展示了如何在不构建图的情况下利用知识图谱进行多跳链接遍历，提供了新的工程可能性。

深度分析

研究背景

随着生成式AI的兴起，用户获取信息的方式发生了根本变化。搜索引擎越来越多地通过AI生成的摘要来增强传统结果，这一范式以Google的AI模式为代表，它从多个网络来源检索、推理并综合信息。理解和优化这种新的检索范式对于依赖搜索可见性的内容创建者、营销人员和组织至关重要。

检索增强生成（RAG）已成为将大型语言模型（LLM）输出与事实、最新信息结合的主导架构。然而，大多数RAG实现将文档视为非结构化文本，忽略了许多网站通过Schema.org标记和知识图谱表示提供的丰富结构化元数据。本文探讨了结构化链接数据是否可以改善RAG系统的性能，并提出了一种新的方法来利用这些数据。

核心问题

当前的RAG系统普遍存在的问题是将文档视为平面文本，忽略了知识图谱提供的结构化元数据和链接关系。这种方法导致信息检索的准确性和完整性不足，尤其是在需要多源信息整合的复杂检索任务中。解决这一问题对于提高RAG系统的性能至关重要，尤其是在需要高精度和高完整性的应用场景中。

核心创新

本文的核心创新在于提出了一种利用结构化链接数据作为RAG系统记忆层的方法。具体来说，本文通过增强的实体页面格式（包括llms.txt风格的代理指令、面包屑导航和神经搜索功能）有效利用了知识图谱中的结构化数据。这种方法与现有的RAG系统相比，显著提高了检索准确性和答案质量，提供了新的信息整合方式。

方法详解

本文的方法论包括以下几个关键步骤：

�� 使用Schema.org标记和可解引用的实体页面作为结构化链接数据的来源。
�� 结合Vertex AI Vector Search 2.0进行检索，利用Google Agent Development Kit (ADK)进行agentic推理。
�� 实验设计包括七种条件，涵盖三种文档表示（纯HTML、带JSON-LD的HTML、增强的agentic优化实体页面）和两种检索模式（标准RAG和带多跳链接遍历的agentic RAG），外加一种增强+条件。
�� 通过对四个领域（编辑、法律、旅游、电子商务）的实验，验证了方法的有效性。

实验设计

实验设计涵盖了四个领域（编辑、法律、旅游、电子商务），使用Vertex AI Vector Search 2.0进行检索，并结合Google Agent Development Kit (ADK)进行agentic推理。实验包括七种条件，涵盖三种文档表示和两种检索模式，外加一种增强+条件。实验数据集包括2,443个单独的查询评估，确保了结果的可靠性和可重复性。

结果分析

实验结果显示，增强的实体页面格式显著提高了检索准确性：标准RAG系统提高了29.6%，完整的agentic管线提高了29.8%。增强+变体在准确性和完整性上获得了最高的绝对分数（准确性：4.85/5，完整性：4.55/5），尽管相较于基础增强格式的增益在统计上并不显著。这表明结构化链接数据在多跳链接遍历中的优势。

应用场景

本文的方法可以直接应用于需要高精度和高完整性的应用场景，如法律文档检索、旅游信息整合和电子商务产品推荐等。通过利用结构化链接数据，本文的方法可以显著提高信息检索的准确性和完整性，尤其是在需要多源信息整合的复杂检索任务中。

局限与展望

尽管本文的方法在实验中表现出色，但也存在一些局限性。首先，增强+变体在绝对分数上表现最佳，但相较于基础增强格式的增益在统计上并不显著，表明在某些情况下，进一步的导航功能可能不会带来显著的性能提升。此外，实验结果可能受到特定领域数据集的影响，尤其是在知识图谱信息丰富的领域中，效果更为显著。最后，由于实验设计的复杂性，结果的可重复性可能受到限制，尤其是在不同的知识图谱和数据平台上。

通俗解读非专业人士也能看懂

想象一下在一个大型图书馆中寻找一本特定的书籍。传统的RAG系统就像是一个只依赖书名目录的图书管理员，他只能根据书名找到书籍，而无法利用书籍之间的关联信息。本文的方法则像是一个拥有完整书目和关联信息的超级图书管理员，他不仅能根据书名找到书籍，还能利用书籍之间的关联信息，找到相关的书籍和资料。

这种方法通过使用结构化链接数据，使得RAG系统能够像超级图书管理员一样，利用书籍之间的关联信息，提高检索的准确性和完整性。通过这种方式，系统可以更好地整合多源信息，提供更全面和准确的答案。

这种方法特别适用于需要整合大量信息的复杂任务，例如法律文档检索、旅游信息整合和电子商务产品推荐等。通过利用结构化链接数据，系统可以更好地理解和整合信息，提高检索的准确性和完整性。

总之，本文的方法通过利用结构化链接数据，使得RAG系统能够像超级图书管理员一样，利用书籍之间的关联信息，提高检索的准确性和完整性。这种方法为信息检索和生成提供了新的视角，可能对学术界和工业界产生深远影响。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在一个巨大的图书馆里，想要找到一本关于恐龙的书。普通的图书管理员只能根据书名帮你找到书，但如果他是个超级图书管理员，他就能利用书之间的关联信息，帮你找到更多相关的书籍和资料！

这就是本文的方法！通过使用结构化链接数据，系统就像那个超级图书管理员，可以利用书籍之间的关联信息，提高检索的准确性和完整性。这样一来，你就能得到更全面和准确的答案啦！

这种方法特别适用于需要整合大量信息的复杂任务，比如法律文档检索、旅游信息整合和电子商务产品推荐等。通过利用结构化链接数据，系统可以更好地理解和整合信息，提高检索的准确性和完整性。

所以，下次你在图书馆找书的时候，想想这个超级图书管理员吧！他可是信息检索界的超级英雄哦！

术语表

RAG系统 (Retrieval-Augmented Generation)

一种结合信息检索和生成的系统架构，利用检索到的信息增强生成结果的准确性和完整性。

本文探讨了如何利用结构化链接数据提高RAG系统的性能。

结构化链接数据 (Structured Linked Data)

一种通过Schema.org标记和可解引用的实体页面表示的结构化数据，提供丰富的元数据和链接关系。

本文利用结构化链接数据作为RAG系统的记忆层。

Schema.org标记

一种用于在网页中嵌入结构化数据的标记格式，帮助搜索引擎更好地理解网页内容。

本文使用Schema.org标记作为结构化链接数据的来源。

知识图谱 (Knowledge Graph)

一种表示实体及其关系的图结构，广泛用于信息检索和语义理解。

本文探讨了如何利用知识图谱中的结构化数据提高RAG系统的性能。

Vertex AI Vector Search 2.0

一种用于高效信息检索的AI原生搜索引擎，结合了密集语义搜索和稀疏关键词搜索。

本文使用Vertex AI Vector Search 2.0进行信息检索。

Google Agent Development Kit (ADK)

一种用于构建多工具代理的生产框架，支持复杂的多步推理和工具使用。

本文结合ADK进行agentic推理。

增强的实体页面格式

一种优化的文档表示格式，包含llms.txt风格的代理指令、面包屑导航和神经搜索功能。

本文提出了增强的实体页面格式以提高检索性能。

多跳链接遍历

一种通过多次链接跳转来整合信息的检索方法，模拟AI驱动的搜索系统的行为。

本文探讨了多跳链接遍历在RAG系统中的应用。

llms.txt风格的代理指令

一种为LLM代理提供显式指导的指令格式，帮助代理更好地理解和使用结构化数据。

本文的增强实体页面格式中包含llms.txt风格的代理指令。

面包屑导航

一种帮助用户理解当前页面在网站结构中位置的导航工具，通常用于增强用户体验。

本文的增强实体页面格式中包含面包屑导航。

开放问题这项研究留下的未解疑问

1 如何在更广泛的领域中应用结构化链接数据作为记忆层？目前的研究主要集中在特定领域，未来需要探索其在其他领域的应用潜力。
2 如何进一步优化增强的实体页面格式？尽管当前的格式已经显著提高了检索性能，但仍有改进空间，尤其是在导航功能方面。
3 如何开发更高效的多跳链接遍历算法？现有算法在某些情况下可能效率不高，需要进一步优化以提高检索效率。
4 如何在不同的知识图谱和数据平台上验证本文方法的普适性？目前的实验结果可能受到特定领域数据集的影响，需要在更广泛的平台上进行验证。
5 如何解决实验设计的复杂性导致的结果可重复性问题？需要开发更标准化的实验框架，以提高结果的可重复性。

应用场景

近期应用

法律文档检索

通过利用结构化链接数据，系统可以更准确地检索和整合法律文档，提高检索的准确性和完整性。

旅游信息整合

利用结构化链接数据，系统可以更好地整合旅游信息，为用户提供更全面和准确的旅游建议。

电子商务产品推荐

通过利用结构化链接数据，系统可以更准确地推荐电子商务产品，提高用户的购物体验。

远期愿景

跨领域信息整合

通过进一步优化结构化链接数据的应用，系统可以在更广泛的领域中实现信息整合，提供更全面的解决方案。

智能搜索引擎

通过利用结构化链接数据，未来的搜索引擎可以更智能地理解和整合信息，为用户提供更准确和全面的搜索结果。

原文摘要

Retrieval-Augmented Generation (RAG) systems typically treat documents as flat text, ignoring the structured metadata and linked relationships that knowledge graphs provide. In this paper, we investigate whether structured linked data, specifically Schema.org markup and dereferenceable entity pages served by a Linked Data Platform, can improve retrieval accuracy and answer quality in both standard and agentic RAG systems. We conduct a controlled experiment across four domains (editorial, legal, travel, e-commerce) using Vertex AI Vector Search 2.0 for retrieval and the Google Agent Development Kit (ADK) for agentic reasoning. Our experimental design tests seven conditions: three document representations (plain HTML, HTML with JSON-LD, and an enhanced agentic-optimized entity page) crossed with two retrieval modes (standard RAG and agentic RAG with multi-hop link traversal), plus an Enhanced+ condition that adds rich navigational affordances and entity interlinking. Our results reveal that while JSON-LD markup alone provides only modest improvements, our enhanced entity page format, incorporating llms.txt-style agent instructions, breadcrumbs, and neural search capabilities, achieves substantial gains: +29.6% accuracy improvement for standard RAG and +29.8% for the full agentic pipeline. The Enhanced+ variant, with richer navigational affordances, achieves the highest absolute scores (accuracy: 4.85/5, completeness: 4.55/5), though the incremental gain over the base enhanced format is not statistically significant. We release our dataset, evaluation framework, and enhanced entity page templates to support reproducibility.

cs.IR cs.AI

参考文献 (18)

REALM: Retrieval-Augmented Language Model Pre-Training

Kelvin Guu, Kenton Lee, Zora Tung 等

2020 2776 引用查看解读 →

Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions

H. Trivedi, Niranjan Balasubramanian, Tushar Khot 等

2022 852 引用查看解读 →

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Akari Asai, Zeqiu Wu, Yizhong Wang 等

2023 1542 引用查看解读 →

WordLift: Meaningful Navigation Systems and Content Recommendation for News Sites running WordPress

A. Volpini, David Riccitelli

2015 3 引用

Schema.org: Evolution of Structured Data on the Web

R. Guha, D. Brickley, Steve Macbeth

2015 442 引用

Linked Data - The Story So Far

Christian Bizer, T. Heath, T. Berners-Lee

2009 5768 引用

Unifying Large Language Models and Knowledge Graphs: A Roadmap

Shirui Pan, Linhao Luo, Yufei Wang 等

2023 1271 引用查看解读 →

Graph Retrieval-Augmented Generation: A Survey

Boci Peng, Yun Zhu, Yongchao Liu 等

2024 325 引用查看解读 →

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao, Jeffrey Zhao, Dian Yu 等

2022 6302 引用查看解读 →

Improving language models by retrieving from trillions of tokens

Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann 等

2021 1534 引用查看解读 →

MICO - Media in Context

P. Aichroth, Christian Weigel, T. Kurz 等

2015 8 引用

The Semantic Web

G. Goos, J. Hartmanis, J. Leeuwen 等

2011 6167 引用

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Patrick Lewis, Ethan Perez, Aleksandara Piktus 等

2020 11965 引用查看解读 →

Multi-hop Question Answering

Vaibhav Mavi, Anubhav Jangra, A. Jatowt

2022 71 引用查看解读 →

Toolformer: Language Models Can Teach Themselves to Use Tools

Timo Schick, Jane Dwivedi-Yu, Roberto Dessì 等

2023 3132 引用查看解读 →

Knowledge Graphs

Aidan Hogan, E. Blomqvist, Michael Cochez 等

2020 2217 引用查看解读 →

GEO: Generative Engine Optimization

Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit 等

2023 24 引用查看解读 →

LightRAG: Simple and Fast Retrieval-Augmented Generation

Zirui Guo, Lianghao Xia, Yanhua Yu 等

2024 211 引用查看解读 →

Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

RAG系统 (Retrieval-Augmented Generation)

结构化链接数据 (Structured Linked Data)

Schema.org标记

知识图谱 (Knowledge Graph)

Vertex AI Vector Search 2.0

Google Agent Development Kit (ADK)

增强的实体页面格式

多跳链接遍历

llms.txt风格的代理指令

面包屑导航

开放问题 这项研究留下的未解疑问

应用场景

近期应用

法律文档检索

旅游信息整合

电子商务产品推荐

远期愿景

跨领域信息整合

智能搜索引擎

原文摘要

参考文献 (18)

相关论文

NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Taming the Long Tail: Efficient Item-wise Sharpness-Aware Minimization for LLM-based Recommender Systems

Anchored Alignment: Preventing Positional Collapse in Multimodal Recommender Systems

FGTR: Fine-Grained Multi-Table Retrieval via Hierarchical LLM Reasoning

VLM4Rec: Multimodal Semantic Representation for Recommendation with Large Vision-Language Models

InterDeepResearch: Enabling Human-Agent Collaborative Information Seeking through Interactive Deep Research

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问