BAGEL: Benchmarking Animal Knowledge Expertise in Language Models

TL;DR

BAGEL基准测试评估语言模型在动物知识上的表现，使用闭卷问答对动物分类、形态等进行测试。

cs.CL 🔴 高级 2026-04-18 28 次浏览

Jiacheng Shen Masato Hagiwara Milad Alizadeh Ellen Gilsenan-McMahon Marius Miron David Robinson Emmanuel Chemla Sara Keen Gagan Narula Mathieu Laurière Matthieu Geist Olivier Pietquin

AI 阅读器 Arxiv 原文下载 PDF

语言模型动物知识基准测试闭卷评估生物多样性

核心发现

方法论

BAGEL基准测试通过从bioRxiv、GloBI、Xeno-canto和Wikipedia等多样化的科学和参考来源构建，结合人工筛选的例子和自动生成的闭卷问答对，评估语言模型在动物知识上的表现。BAGEL涵盖动物知识的多个方面，包括分类学、形态学、栖息地、行为、发声、地理分布和物种互动。通过专注于闭卷评估，BAGEL在推理时不依赖外部检索，能够更精确地分析模型的优劣势。

关键结果

结果1：在Wikipedia和bioRxiv上的表现最强，GPT-5.4在整体准确率上达到76.01%，但在Xeno-canto上表现较弱，显示出模型在动物知识上的源敏感性。
结果2：开放权重模型中，Gemma 3 27B IT在我们的协议下达到最高的开放分数0.6789，显示出与专有模型之间的差距。
结果3：中小型开放模型在文本密集的领域表现良好，但在Xeno-canto上可能失败，表明需要进一步的改进。

研究意义

BAGEL基准测试为研究语言模型在特定领域知识上的泛化能力提供了新的测试平台，尤其是在生物多样性相关应用中的可靠性。通过详细分析模型在不同来源域、分类群和知识类别上的表现，BAGEL能够揭示模型的系统性失败模式和优势，为未来的模型改进提供了清晰的方向。

技术贡献

BAGEL的技术贡献在于其独特的闭卷评估协议，能够在不依赖外部信息的情况下测试模型的动物知识。这种方法允许对模型在特定领域知识上的内在能力进行更精确的评估，并揭示模型在处理复杂生物多样性知识时的潜在弱点。

新颖性

BAGEL是首个专注于动物知识的闭卷评估基准，填补了当前语言模型评估中对特定领域知识测试的空白。与其他基准不同，BAGEL结合了多种来源的动物知识，提供了更全面的评估视角。

局限性

局限1：BAGEL的评估集中在文本数据上，未能涵盖多模态数据的处理能力，这可能限制了对某些生物多样性应用的全面评估。
局限2：由于数据来源的多样性，某些领域的知识可能不够全面，影响了对模型在特定领域的全面评估。
局限3：模型在Xeno-canto上的表现较弱，表明在处理动物发声文本描述时的能力不足。

未来方向

未来的研究方向包括扩展BAGEL以涵盖多模态数据，进一步提高对模型在处理复杂生物多样性知识时的评估能力。此外，研究如何改进模型在Xeno-canto等特定领域的表现，以提高其在动物发声文本描述上的能力。

AI 总览摘要

BAGEL基准测试为评估语言模型在动物知识上的表现提供了一个新的平台。当前，尽管大型语言模型在广泛领域的知识和推理基准上表现出色，但在处理专门的动物相关知识时，其能力仍不明确。BAGEL通过从多样化的科学和参考来源构建，结合人工筛选的例子和自动生成的闭卷问答对，评估语言模型在动物知识上的表现。BAGEL涵盖动物知识的多个方面，包括分类学、形态学、栖息地、行为、发声、地理分布和物种互动。通过专注于闭卷评估，BAGEL在推理时不依赖外部检索，能够更精确地分析模型的优劣势。

BAGEL的实验结果显示，尽管在Wikipedia和bioRxiv上的表现最强，但在Xeno-canto上表现较弱，显示出模型在动物知识上的源敏感性。开放权重模型中，Gemma 3 27B IT在我们的协议下达到最高的开放分数，显示出与专有模型之间的差距。中小型开放模型在文本密集的领域表现良好，但在Xeno-canto上可能失败，表明需要进一步的改进。

深度分析

研究背景

近年来，大型语言模型（LLMs）在广泛领域的知识和推理任务中表现出色，尤其是在多任务语言理解（MMLU）和科学问答（ScienceQA）等基准测试中。然而，这些模型在处理自然界中的长尾知识时的表现仍不明确，特别是在需要物种级别事实、生态关系或自然历史推理的问题上。随着语言模型在生物多样性和动物相关应用中的探索不断增加，评估其在这些领域的能力变得愈发重要。BAGEL基准测试的提出，旨在填补这一空白，通过闭卷评估协议，系统地测试语言模型在动物知识上的表现。

核心问题

当前的语言模型在广泛领域的知识和推理任务中表现出色，但在处理专门的动物相关知识时，其能力仍不明确。特别是在需要物种级别事实、生态关系或自然历史推理的问题上，模型的表现可能不够理想。这一问题的解决对于提高模型在生物多样性和动物相关应用中的可靠性具有重要意义。

核心创新

BAGEL基准测试的核心创新在于其独特的闭卷评估协议，能够在不依赖外部信息的情况下测试模型的动物知识。与其他基准不同，BAGEL结合了多种来源的动物知识，包括Wikipedia、GloBI、bioRxiv和Xeno-canto，提供了更全面的评估视角。此外，BAGEL支持跨来源域、分类群和知识类别的细粒度分析，能够揭示模型的系统性失败模式和优势。

方法详解

BAGEL基准测试通过以下步骤构建：

�� 数据来源：从Wikipedia、GloBI、bioRxiv和Xeno-canto等多样化的科学和参考来源获取数据。

�� 数据处理：对获取的数据进行预处理，包括文本清理、去重和格式化。

�� 问题生成：使用GPT-4o-mini API生成闭卷问答对，涵盖动物知识的多个方面。

�� 评估协议：在推理时不依赖外部检索，专注于闭卷评估。

�� 结果分析：通过详细分析模型在不同来源域、分类群和知识类别上的表现，揭示模型的优劣势。

实验设计

BAGEL基准测试的实验设计包括以下几个方面：

�� 数据集：从Wikipedia、GloBI、bioRxiv和Xeno-canto获取的数据，共计11,852个四选一的单项选择题。

�� 基线模型：使用多个开放权重模型和闭源模型进行评估，包括GPT-5.4和Claude Opus 4.6。

�� 评估指标：使用准确率作为主要评估指标，分别在每个来源域和整体上进行评估。

�� 超参数设置：使用固定的随机种子和贪婪生成策略进行评估，确保结果的可重复性。

结果分析

实验结果显示，尽管在Wikipedia和bioRxiv上的表现最强，但在Xeno-canto上表现较弱，显示出模型在动物知识上的源敏感性。开放权重模型中，Gemma 3 27B IT在我们的协议下达到最高的开放分数，显示出与专有模型之间的差距。中小型开放模型在文本密集的领域表现良好，但在Xeno-canto上可能失败，表明需要进一步的改进。

应用场景

BAGEL基准测试的应用场景包括：

�� 生物多样性研究：通过评估语言模型在动物知识上的表现，帮助研究人员更好地理解和保护生物多样性。

�� 教育应用：为教育工作者提供一个评估学生动物知识的平台，促进生物学教育的发展。

�� 科学研究：为科学家提供一个评估语言模型在处理复杂生物多样性知识时的能力的平台，推动相关领域的研究进展。

局限与展望

BAGEL基准测试的局限性包括：

�� 数据来源的多样性可能导致某些领域的知识不够全面，影响了对模型在特定领域的全面评估。

�� 模型在Xeno-canto上的表现较弱，表明在处理动物发声文本描述时的能力不足。

�� 由于评估集中在文本数据上，未能涵盖多模态数据的处理能力，这可能限制了对某些生物多样性应用的全面评估。

通俗解读非专业人士也能看懂

想象一下，你是一位动物园管理员，负责管理一个大型动物园。你需要了解每种动物的习性、饮食、栖息地和行为，以便更好地照顾它们。BAGEL基准测试就像是一个动物百科全书，帮助你在不查阅外部资料的情况下，快速获取关于动物的各种知识。它通过一系列精心设计的问题，测试你对动物知识的掌握程度，就像是给你出了一份关于动物的闭卷考试。通过这种方式，BAGEL帮助你评估自己在动物知识上的优劣势，找出需要改进的地方。

简单解释像给14岁少年讲一样

嘿，小伙伴们！今天我们来聊聊一个超级酷的东西，叫做BAGEL基准测试。想象一下，你在玩一个关于动物的问答游戏，这个游戏会问你各种关于动物的问题，比如它们住在哪里、吃什么、怎么叫等等。BAGEL就像是这个游戏的终极版本，它会测试你对动物知识的了解程度。它从各种科学资料中提取问题，然后让你在不查阅任何资料的情况下回答。这就像是在考验你的动物知识水平，看你是不是一个动物知识达人！

术语表

BAGEL基准测试

BAGEL是一个用于评估语言模型在动物知识上的表现的基准测试。它通过闭卷问答的形式，测试模型在动物分类、形态、栖息地、行为等方面的知识掌握程度。

BAGEL用于评估语言模型在特定领域知识上的泛化能力。

闭卷评估

闭卷评估是一种测试方法，要求被测者在不查阅外部资料的情况下回答问题。

BAGEL基准测试采用闭卷评估协议，测试语言模型的内在能力。

语言模型

语言模型是一种通过学习大量文本数据来预测词语序列的概率分布的模型。

BAGEL用于评估语言模型在动物知识上的表现。

生物多样性

生物多样性指的是地球上各种生命形式的多样性，包括物种多样性、遗传多样性和生态系统多样性。

BAGEL为生物多样性相关应用提供了评估平台。

分类学

分类学是生物学的一个分支，研究生物的分类和命名。

BAGEL测试语言模型在动物分类学上的知识。

形态学

形态学是研究生物体形态和结构的科学。

BAGEL测试语言模型在动物形态学上的知识。

栖息地

栖息地是指生物体生活和繁殖的自然环境。

BAGEL测试语言模型在动物栖息地知识上的掌握。

行为学

行为学是研究动物行为及其机制的科学。

BAGEL测试语言模型在动物行为学上的知识。

发声

发声是指动物通过声带或其他器官发出声音的行为。

BAGEL测试语言模型在动物发声知识上的掌握。

地理分布

地理分布指的是物种在地球上的分布范围。

BAGEL测试语言模型在动物地理分布知识上的掌握。

开放问题这项研究留下的未解疑问

1 开放问题1：如何改进语言模型在处理动物发声文本描述时的能力？当前模型在Xeno-canto上的表现较弱，表明在处理动物发声文本描述时的能力不足。需要进一步研究如何提高模型在这一领域的表现。
2 开放问题2：如何扩展BAGEL以涵盖多模态数据？当前BAGEL的评估集中在文本数据上，未能涵盖多模态数据的处理能力，这可能限制了对某些生物多样性应用的全面评估。
3 开放问题3：如何提高模型在处理复杂生物多样性知识时的泛化能力？BAGEL的实验结果显示，模型在不同来源域的表现存在差异，需要进一步研究如何提高模型的泛化能力。
4 开放问题4：如何改进模型在特定领域的表现？BAGEL的实验结果显示，模型在某些领域的表现不够理想，需要进一步研究如何改进模型在这些领域的表现。
5 开放问题5：如何提高模型在处理长尾知识时的表现？当前语言模型在处理自然界中的长尾知识时的表现仍不明确，需要进一步研究如何提高模型在这一领域的表现。

应用场景

近期应用

生物多样性研究

BAGEL为研究人员提供了一个评估语言模型在动物知识上的表现的平台，帮助他们更好地理解和保护生物多样性。

教育应用

BAGEL为教育工作者提供了一个评估学生动物知识的平台，促进生物学教育的发展。

科学研究

BAGEL为科学家提供了一个评估语言模型在处理复杂生物多样性知识时的能力的平台，推动相关领域的研究进展。

远期愿景

多模态数据处理

未来的研究可以扩展BAGEL以涵盖多模态数据，提高对模型在处理复杂生物多样性知识时的评估能力。

改进模型表现

通过研究如何改进模型在特定领域的表现，提高其在动物发声文本描述上的能力。

原文摘要

Large language models have shown strong performance on broad-domain knowledge and reasoning benchmarks, but it remains unclear how well language models handle specialized animal-related knowledge under a unified closed-book evaluation protocol. We introduce BAGEL, a benchmark for evaluating animal knowledge expertise in language models. BAGEL is constructed from diverse scientific and reference sources, including bioRxiv, Global Biotic Interactions, Xeno-canto, and Wikipedia, using a combination of curated examples and automatically generated closed-book question-answer pairs. The benchmark covers multiple aspects of animal knowledge, including taxonomy, morphology, habitat, behavior, vocalization, geographic distribution, and species interactions. By focusing on closed-book evaluation, BAGEL measures animal-related knowledge of models without external retrieval at inference time. BAGEL further supports fine-grained analysis across source domains, taxonomic groups, and knowledge categories, enabling a more precise characterization of model strengths and systematic failure modes. Our benchmark provides a new testbed for studying domain-specific knowledge generalization in language models and for improving their reliability in biodiversity-related applications.

cs.CL cs.AI

参考文献 (20)

SmolLM2: When Smol Goes Big - Data-Centric Training of a Small Language Model

Loubna Ben Allal, Anton Lozhkov, Elie Bakouch 等

2025 215 引用 ⭐ 高影响力查看解读 →

Gemma 3 Technical Report

Gemma Team Aishwarya Kamath, Johan Ferret, Shreya Pathak 等

2025 1214 引用 ⭐ 高影响力查看解读 →

Large language models possess some ecological knowledge, but how much?

Filip Dorm, Joseph W. Millard, Drew Purves 等

2026 11 引用 ⭐ 高影响力

Measuring Massive Multitask Language Understanding

Dan Hendrycks, Collin Burns, Steven Basart 等

2020 7676 引用 ⭐ 高影响力查看解读 →

NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics

David Robinson, Marius Miron, Masato Hagiwara 等

2024 30 引用 ⭐ 高影响力查看解读 →

Phi-4 Technical Report

Marah Abdin, J. Aneja, Harkirat Singh Behl 等

2024 557 引用 ⭐ 高影响力查看解读 →

BEANS: The Benchmark of Animal Sounds

Masato Hagiwara, Benjamin Hoffman, Jen-Yu Liu 等

2022 56 引用 ⭐ 高影响力查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 4301 引用 ⭐ 高影响力查看解读 →

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Pan Lu, Swaroop Mishra, Tony Xia 等

2022 2168 引用 ⭐ 高影响力查看解读 →

The Llama 3 Herd of Models

Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey 等

2024 14252 引用 ⭐ 高影响力查看解读 →

Mistral 7B

Albert Qiaochu Jiang, Alexandre Sablayrolles, Arthur Mensch 等

2023 3302 引用 ⭐ 高影响力查看解读 →

Plausibly Problematic Questions in Multiple-Choice Benchmarks for Commonsense Reasoning

Shramay Palta, Nishant Balepur, Peter Rankel 等

2024 12 引用查看解读 →

Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions

Pouya Pezeshkpour, Estevam Hruschka

2023 226 引用查看解读 →

Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

Nishant Balepur, Rachel Rudinger, J. Boyd-Graber

2025 42 引用查看解读 →

OceanGPT: A Large Language Model for Ocean Science Tasks

Zhen Bi, Ningyu Zhang, Yida Xue 等

2023 76 引用查看解读 →

Training language models to follow instructions with human feedback

Long Ouyang, Jeff Wu, Xu Jiang 等

2022 19868 引用查看解读 →

Overview of BioASQ 2023: The eleventh BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering

A. Nentidis, Georgios Katsimpras, Anastasia Krithara 等

2023 40 引用查看解读 →

SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions

Weijie Xu, Shixian Cui, Xi Fang 等

2025 4 引用查看解读 →

Answer Matching Outperforms Multiple Choice for Language Model Evaluation

Nikhil Chandak, Shashwat Goel, Ameya Prabhu 等

2025 24 引用查看解读 →

Environmental large language model Evaluation (ELLE) dataset: A Benchmark for Evaluating Generative AI applications in Eco-environment Domain

Jing Guo, Nan Li, Ming Xu

2025 4 引用查看解读 →

BAGEL: Benchmarking Animal Knowledge Expertise in Language Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

BAGEL基准测试

闭卷评估

语言模型

生物多样性

分类学

形态学

栖息地

行为学

发声

地理分布

开放问题 这项研究留下的未解疑问

应用场景

近期应用

生物多样性研究

教育应用

科学研究

远期愿景

多模态数据处理

改进模型表现

原文摘要

参考文献 (20)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问