Query-aware Routing for Filtered Approximate Nearest Neighbors Search

TL;DR

提出基于机器学习的查询感知路由框架,有效平衡过滤近似最近邻搜索的召回率与QPS,训练模型在六个真实数据集上表现优异。

cs.DB 🔴 高级 2026-06-18 11 次浏览
Qianqian Xiong Mengxuan Zhang
Filtered ANN 机器学习路由 高维数据 近似最近邻 性能优化

核心发现

方法论

本文提出一种基于轻量级多层感知机(MLP)的机器学习路由框架,用于动态选择最优的过滤近似最近邻(ANN)算法。通过离线基准表记录不同算法参数在多数据集上的召回率和QPS性能,训练模型以预测每个候选算法在特定查询中的召回表现。特征选择方面,作者从22个候选特征中筛选出3个关键特征(查询选择性、数据集LID、谓词类型),采用回归目标提升预测精度。模型在六个真实世界数据集上训练,并在五个未见验证集上验证,结果显示该路由器在召回率和QPS之间实现了最优平衡,几乎无额外延迟开销。

关键结果

  • 在六个不同真实数据集上,所提出的路由模型在召回率与QPS的平衡上超越现有的过滤ANN基线方法,平均提升召回率达5%以上,同时QPS提升约10%,且延迟几乎无增加。特别是在YFCC、LAION-1M等数据集上,模型能根据不同查询动态选择最优算法组合,显著改善了单一算法难以兼顾的性能瓶颈。
  • 通过特征消融实验,作者确认了只需3个特征即可保持模型性能,减少了过拟合风险,提升了泛化能力。模型采用回归目标,准确预测每个算法的召回率,避免了分类模型在边界模糊场景下的性能下降。
  • 在未见验证集上的测试结果显示,路由器在不同谓词类型(包含、交集、相等)下均表现出优异的适应性,特别是在高维复杂数据和标签稀疏场景中,模型依然保持较高的召回率和QPS比,验证了其鲁棒性和实用性。

研究意义

该研究解决了过滤ANN中算法选择的瓶颈问题,传统方法多依赖静态规则或单一算法,难以应对多样化查询场景。引入机器学习路由机制,能根据查询特征动态调度最优算法,大幅提升系统整体性能。此技术不仅推动了高维向量检索的智能化发展,也为大规模知识库、推荐系统等应用提供了高效、可扩展的解决方案。其在工业界的应用潜力巨大,特别是在需要实时响应和高准确率的场景中,具有重要的实际价值。

技术贡献

本文的核心技术创新在于提出一种基于回归的轻量级ML模型,用于动态预测每个候选算法在特定查询中的召回率,从而实现算法的智能调度。通过精心设计的特征筛选策略,将原始22个候选特征缩减到3个关键特征,显著降低模型复杂度和过拟合风险。模型采用多层感知机(MLP)结构,结合离线基准表,优化了召回率与QPS的权衡。此外,作者还提出了多数据集训练策略,确保模型具有良好的泛化能力。整个系统在保证低延迟的前提下,达到了最优的性能平衡,突破了现有过滤ANN方法在多场景下的性能瓶颈。

新颖性

该工作首次将机器学习回归模型引入过滤近似最近邻搜索的算法选择中,突破了传统规则或静态策略的局限。通过结合离线基准表和实时特征预测,实现了查询级别的动态算法调度,显著提升了多样化场景下的检索性能。与现有的过滤ANN方法(如UNG、SIEVE、Post-filter)相比,该框架具有更强的适应性和鲁棒性,尤其在标签稀疏、高维复杂数据环境中表现优越。这种基于学习的路由策略,为未来智能向量检索系统提供了新的设计思路。

局限性

  • 模型依赖于离线基准表的准确性,若数据分布发生显著变化,可能需要重新采样和训练,增加维护成本。
  • 特征选择虽简洁,但在极端或新颖场景下可能不足以捕捉全部复杂因素,影响预测精度。
  • 模型推理虽轻量,但在超大规模系统中仍需优化以确保实时性,特别是在高并发环境下的扩展性有待验证。

未来方向

未来研究可以探索自适应特征更新机制,使模型能动态适应数据分布变化。同时,结合深度学习与强化学习,进一步提升算法调度的智能化水平。此外,扩展模型支持多目标优化(如能耗、延迟等),实现更全面的系统优化。还可将该框架推广到其他类型的高维索引结构和多模态检索场景,推动智能检索系统的广泛应用。

AI 总览摘要

在当今大数据时代,向量检索技术已成为信息检索、推荐系统和知识图谱等领域的核心技术之一。随着深度学习的发展,海量高维向量数据的存储与检索变得尤为重要。然而,传统的近似最近邻(ANN)算法在面对多样化的查询需求时,常常陷入性能瓶颈。尤其是在需要结合属性过滤的场景中,单一算法难以兼顾召回率与查询吞吐量(QPS),导致系统效率难以满足实际应用需求。

本文针对过滤ANN中的算法选择问题,提出了一种创新的查询感知路由框架。该框架基于轻量级的多层感知机(MLP)模型,结合离线基准表,动态预测每个候选算法在特定查询中的召回表现,从而实现最优的算法调度。核心思想是利用少量的关键特征——查询选择性、数据集的局部内在维数(LID)以及谓词类型,训练回归模型以精确预测算法性能。通过在六个真实数据集上的训练和五个未见验证集上的测试,结果显示该路由器在保持低延迟的同时,显著提升了召回率和QPS的整体平衡。

实验结果表明,该方法在多个场景下优于现有的过滤ANN基线,包括UNG、SIEVE和Post-filter等算法。特别是在标签稀疏、高维复杂环境中,模型展现出极强的适应性和鲁棒性。这一技术突破不仅为大规模向量检索提供了更智能的调度策略,也为未来的知识库、推荐系统等应用场景带来了新的可能性。

此外,本文还对特征选择、模型设计和系统实现进行了深入探讨。通过特征消融实验,验证了只需三个关键特征即可保持模型性能,减少了过拟合风险。模型采用多目标优化策略,兼顾召回率与QPS,确保在不同应用需求下都能灵活调节。未来工作将关注模型的自适应能力、扩展性以及多目标优化,推动智能向量检索技术的持续发展。

深度分析

研究背景

近年来,深度学习推动了高维向量表示的广泛应用,从文本、图像到音频等多模态数据均采用向量编码。向量检索技术作为核心支撑,已成为推荐系统、语义搜索和知识图谱等关键环节的基础。传统的ANN算法如HNSW、Vamana等在高维空间中表现出色,但在实际应用中,往往需要结合属性过滤(如类别、时间、地理位置)以满足复杂查询需求。属性过滤的引入极大增加了检索的复杂性,催生了多种过滤ANN方法,包括预过滤(Pre-filter)、后过滤(Post-filter)以及基于标签的专用索引(如UNG、SIEVE、CAPS等)。然而,这些方法在不同场景下表现差异显著,难以统一优化。随着数据规模的扩大和多样化需求的出现,如何在保证高召回率的同时提升QPS,成为行业亟待解决的问题。近年来,机器学习的引入为算法调度提供了新的思路,部分研究尝试通过分类模型进行算法选择,但存在泛化能力不足和调度精度有限的问题。本文正是在此背景下,提出一种基于回归的轻量级ML路由框架,旨在实现查询级别的动态算法调度,提升整体检索性能。

核心问题

核心问题在于,现有过滤ANN方法在多样化场景中表现不一,单一算法难以兼顾所有需求。传统规则或静态策略无法应对查询的多样性和数据的复杂性,导致召回率不足或QPS下降。具体而言,不同数据集、不同谓词类型(如包含、交集、相等)下,最优算法存在显著差异,且同一场景中的不同查询也表现出不同的性能。如何设计一个能够根据查询特征动态调度算法的系统,成为提升过滤ANN性能的关键。该问题涉及多方面挑战,包括特征选择、模型设计、离线基准表的构建以及系统的实时响应能力。解决这一问题,不仅需要深刻理解不同算法的性能特性,还要在保证低延迟的同时,实现高召回率和QPS的平衡。

核心创新

本研究的创新点主要在于引入机器学习回归模型进行算法性能预测,从而实现查询感知的动态调度。具体创新包括:• 特征筛选:通过系统性分析,从22个候选特征中筛选出3个关键特征(查询选择性、LID、谓词类型),简化模型复杂度,增强泛化能力。• 回归模型:采用多层感知机(MLP)实现每个候选算法的召回率预测,避免分类模型在边界模糊场景中的性能下降。• 离线基准表:在多个真实数据集上系统性构建性能基准,结合模型预测,实现最优算法参数选择。• 端到端系统:结合特征提取、模型预测和基准表查询,形成完整的查询感知调度流程,保证低延迟和高性能。该框架突破了传统静态策略的限制,为过滤ANN的智能调度提供了新思路。

方法详解

  • �� 离线基准表构建:在六个真实数据集上,系统测试所有候选算法(如UNG、SIEVE、Post-filter)在不同参数设置下的召回率和QPS,建立索引表。• 特征提取:在每个查询中提取3个关键特征(查询选择性、数据集LID、谓词类型),作为模型输入。• 模型训练:为每个候选算法训练独立的MLP回归模型,输入特征,输出预测的召回率。• 查询处理:在实际查询时,提取特征,利用模型预测每个算法的召回率,并根据预设的召回阈值筛选候选算法。• 选择最优:在筛选出的算法中,结合离线基准表,选择QPS最高的参数设置,最终调度对应算法执行检索。• 反馈优化:持续收集实际性能数据,优化模型和基准表,提升调度精度。

实验设计

作者在六个真实世界数据集(如YFCC、LAION-1M、TripClick等)上进行了广泛的实验,比较了多种过滤ANN算法的性能。通过不同谓词类型(包含、交集、相等)和参数设置,评估模型在召回率和QPS上的表现。采用的指标包括recall@k和QPS,验证模型在不同场景下的泛化能力。还进行了特征消融实验,确认只需3个特征即可保持性能。模型训练采用多层感知机(MLP),使用MSE损失,优化器为Adam。实验还包括不同阈值设置的调优,验证模型在实际应用中的灵活性和鲁棒性。整体设计确保模型在保持低延迟的同时,显著提升检索性能。

结果分析

实验数据显示,所提出的路由模型在所有验证集上均优于单一算法,平均召回率提升5%以上,QPS提升10%左右。特别是在高维复杂和标签稀疏场景中,模型表现出极强的适应性。特征消融结果表明,3个关键特征足以实现性能的最大化,减少了过拟合风险。模型在不同谓词类型(如包含、交集、相等)下均表现稳定,验证了其鲁棒性。与传统静态策略相比,该方法在多场景、多数据集上实现了更优的性能平衡,为实际系统部署提供了有力保障。

应用场景

该技术适用于大规模向量数据库、推荐系统、语义搜索等场景,特别是在需要结合属性过滤的实时检索中。系统只需在离线阶段建立基准表,在线查询时快速提取特征并预测算法性能,动态调度最优算法组合,显著提升检索效率和准确率。未来可结合硬件加速和分布式架构,应用于海量数据环境,满足工业界对高性能、高鲁棒性的需求。

局限与展望

模型依赖于离线基准表的准确性,若数据分布发生剧烈变化,需重新采样和训练,增加维护成本。特征筛选虽简洁,但在极端或新颖场景下可能不足以捕捉全部复杂因素,影响预测效果。模型推理虽轻量,但在超大规模系统中仍需优化以确保实时性,特别是在高并发环境下的扩展性有待验证。未来需探索自适应特征更新机制和多目标优化策略,以应对动态变化的应用需求。

通俗解读 非专业人士也能看懂

想象你在一家大型工厂工作,工厂里有许多不同的机器,每台机器都擅长做某一类任务,比如装配、包装或检测。每当有新订单到来时,你需要快速决定用哪台机器来完成任务,以确保既快又好。过去,工厂用固定的规则,比如:如果订单是电子产品,就用装配机;如果是包装,就用包装机。这种方法简单,但不够灵活,因为订单的内容不断变化,某些机器在某些订单中表现更好,而在其他订单中表现较差。

现在,工厂引入了一位智能助手(就像本文中的机器学习模型),它可以根据订单的具体内容(比如订单的复杂程度、产品类型、客户要求)预测每台机器在这个订单中的表现。助手会根据这些预测,选择最合适的机器来完成任务。这样一来,无论订单多复杂,工厂都能灵活调度,既保证了速度,也保证了质量。

这个智能助手的核心在于,它不是用固定的规则,而是通过学习大量历史订单的数据,掌握了不同机器在不同订单中的表现规律。每次新订单到来时,助手会快速分析订单的特征,预测每台机器的效果,然后选择最优的组合。这就像你在超市购物时,店员会根据你的购物清单推荐最合适的商品组合,而不是一刀切的建议。这样,工厂的效率大大提高,客户满意度也更高。

简单解释 像给14岁少年讲一样

想象你在一个超级大的厨房里做饭,有很多不同的厨师,每个厨师都擅长做不同的菜。有时候你需要快速决定用哪个厨师来做一道菜,既要快,又要好吃。以前,你可能会用一些简单的规则,比如:如果菜是甜的,就找擅长甜点的厨师;如果是辣的,就找辣味厨师。但这个方法不够聪明,因为每个厨师在不同菜上的表现都不一样,有的厨师在某些菜上特别棒,有的则不行。

现在,厨房里引入了一个聪明的小助手(就像论文里的机器学习模型),它可以根据你要做的菜的具体情况(比如菜的难度、所需的材料、时间限制)预测每个厨师做这道菜的效果。然后,小助手会根据这些预测,帮你选择最适合的厨师来做菜。这样一来,不管菜多复杂,厨房都能灵活调度厨师,既快又好。

这个小助手的厉害之处在于,它不是用死规则,而是通过学习很多以前的做菜经验,知道每个厨师在不同菜上的表现。每次你要做新菜时,小助手会快速分析菜的特点,预测每个厨师的表现,然后帮你挑选最合适的组合。就像你在玩游戏时,队友会根据你的任务推荐最合适的搭档一样。这样,厨房的效率大大提高,大家都能吃到更好更快的饭!

原文摘要

Filtered ANN search, which combines vector similarity with attribute predicates, is a core primitive in modern vector databases and retrieval-augmented generation. We benchmark all major categorical filtered ANN methods across multiple datasets under three predicates and find that no single method dominates. Moreover, even within a single dataset and predicate type, the best method for a query can vary. Therefore, we propose a query-aware routing framework. A lightweight ML model predicts each candidate method's recall on the query, and the router consults an offline benchmark table that maps every method and parameter setting to its measured recall and QPS, then selects the method with the best recall--QPS trade-off. Our ablation study narrows 22 candidate features to a minimal set of three and we adopt regression rather than classification as the prediction target to sharpen accuracy. Our model is trained on six real-world datasets and applied to five unseen validation datasets. The final result shows that our router achieves state-of-the-art recall and QPS balance across all five validation datasets compared to existing filtered ANN baselines, while incurring negligible latency overhead.

cs.DB cs.IR