Characterising LLM-Generated Competency Questions: a Cross-Domain Empirical Study using Open and Closed Models

TL;DR

使用CompCQ框架对LLM生成的能力问题进行跨领域分析，揭示其生成特征。

cs.AI 🔴 高级 2026-04-18 27 次浏览

Reham Alharbi Valentina Tamma Terry R. Payne Jacopo de Berardinis

生成式AI 能力问题跨领域分析开放模型封闭模型

核心发现

方法论

本文提出了一个名为CompCQ的多维框架，用于系统地比较不同LLM生成的能力问题。该框架通过量化语言、句法和语义特征来分析生成问题的复杂性和可读性。研究使用了包括KimiK2-1T、LLama3.1-8B、LLama3.2-3B等开放模型，以及Gemini 2.5 Pro和GPT 4.1等封闭模型，跨越文化遗产、医疗保健等五个领域进行实验。

关键结果

在个性化抑郁症治疗本体领域，KimiK2生成的问题在复杂性和可读性指标上得分最高，FKGL为21，显示其生成的问题在理解上需要较高的教育水平。
Gemini模型在大多数领域生成了最简洁、可读性最高的问题，FKGL得分最低，表明其生成的问题更直接、易于理解。
开放模型在复杂领域生成的问题复杂性显著增加，尤其是在技术要求高的领域，显示出其在处理复杂输入时的局限性。

研究意义

本研究通过对LLM生成的能力问题进行系统分析，揭示了不同模型在不同领域的生成特征和性能差异。这对于选择合适的LLM用于本体工程具有重要意义，尤其是在需要高质量问题生成的应用场景中。研究结果表明，单一模型难以全面覆盖所有需求空间，因此需要结合多种模型并保留人工干预以确保全面和准确的覆盖。

技术贡献

技术贡献在于提出了一个多维框架CompCQ，用于分析和比较LLM生成的能力问题。该框架不仅考虑了语言和句法复杂性，还引入了语义多样性和覆盖率的评估方法，为LLM生成问题的评估提供了新的视角和工具。

新颖性

这是首次系统性地比较开放和封闭LLM在生成能力问题上的表现，并引入了多维度的分析框架CompCQ。与之前的研究相比，本研究不仅关注生成的可行性，还深入探讨了生成问题的内在特征。

局限性

在处理复杂领域时，开放模型生成的问题复杂性显著增加，可能导致理解困难。
某些模型在特定领域生成的问题数量偏少，可能未能全面覆盖需求。
封闭模型虽然生成稳定性较高，但在多样性上有所欠缺。

未来方向

未来的研究可以探索如何结合多种LLM以提高生成问题的覆盖率和多样性。此外，可以进一步优化CompCQ框架，以便更好地适应不同领域的需求，并减少人工干预的必要性。

AI 总览摘要

在本体工程中，能力问题（CQs）是需求获取的核心工具，通常由本体工程师与领域专家通过人工过程共同建模。然而，这一过程耗时且需要大量专业知识，限制了其广泛应用。生成式AI的引入自动化了CQs的创建，扩大了利益相关者的参与范围，并最终拓宽了本体工程的访问权限。

然而，随着大语言模型（LLMs）的广泛应用，理解其生成的CQs的内在特性变得至关重要。本文提出了一个名为CompCQ的多维框架，用于系统地比较不同LLM生成的CQs。通过跨领域的实证研究，我们分析了CQs的可读性、结构复杂性和语义多样性等特征。

研究使用了包括KimiK2-1T、LLama3.1-8B、LLama3.2-3B等开放模型，以及Gemini 2.5 Pro和GPT 4.1等封闭模型，跨越文化遗产、医疗保健等五个领域进行实验。实验结果表明，LLM的性能反映了由使用案例塑造的不同生成特征。封闭模型在稳定性和可读性上表现优异，而开放模型则在多样性上有更高的表现，但有时会牺牲清晰度。

在个性化抑郁症治疗本体领域，KimiK2生成的问题在复杂性和可读性指标上得分最高，FKGL为21，显示其生成的问题在理解上需要较高的教育水平。相反，Gemini模型在大多数领域生成了最简洁、可读性最高的问题，FKGL得分最低，表明其生成的问题更直接、易于理解。

研究结果表明，单一模型难以全面覆盖所有需求空间，因此需要结合多种模型并保留人工干预以确保全面和准确的覆盖。未来的研究可以探索如何优化CompCQ框架，以便更好地适应不同领域的需求，并减少人工干预的必要性。

深度分析

研究背景

本体工程（Ontology Engineering, OE）是信息科学中的一个重要领域，旨在通过构建本体来实现知识的组织和共享。在OE生命周期中，需求获取是一个关键阶段，决定了模型的功能范围和语义适用性。能力问题（Competency Questions, CQs）被公认为这一任务的标准机制，作为领域专家和本体工程师之间的自然语言接口。通过将需求框定为可回答的问题，CQs指导了概念和关系的建模，支持验证和测试，并为本体重用的评估提供信息。然而，CQs的手动制定仍然是一个主要瓶颈，因为它需要大量的领域和建模专业知识，这在实践中导致了它们的使用不足。为了缓解这一问题，OE社区越来越多地转向自动化，从基于模式的方法到使用大语言模型（LLMs）。

核心问题

尽管LLMs在OE中的快速采用已经证明了生成CQs的可行性，但对其输出特性进行系统比较和评估仍然是一个重大挑战。例如，模型架构、参数大小和输入领域对生成CQs的语言结构、复杂性和语义多样性的影响仍然缺乏深入研究。将LLMs视为一个整体解决方案忽视了其输出特性的显著变异性，这对于本体工程师有效选择基于LLM的OE工具至关重要。

核心创新

本文的创新之处在于提出了一个名为CompCQ的多维框架，用于系统地比较不同LLM生成的能力问题。该框架通过量化语言、句法和语义特征来分析生成问题的复杂性和可读性。研究使用了包括KimiK2-1T、LLama3.1-8B、LLama3.2-3B等开放模型，以及Gemini 2.5 Pro和GPT 4.1等封闭模型，跨越文化遗产、医疗保健等五个领域进行实验。通过这种方法，我们能够识别出生成问题的显著特征，包括可读性、与输入文本的相关性以及生成问题的结构复杂性。

方法详解

�� 提出CompCQ框架：用于量化和比较LLM生成的能力问题的多维框架。
�� 使用多种LLM进行实验：包括开放模型（KimiK2-1T、LLama3.1-8B、LLama3.2-3B）和封闭模型（Gemini 2.5 Pro、GPT 4.1）。
�� 跨领域分析：在文化遗产、医疗保健等五个领域进行实验，以识别生成问题的显著特征。
�� 量化特征：分析生成问题的可读性、结构复杂性和语义多样性。

实验设计

实验设计涵盖了多种LLM，包括开放模型和封闭模型，跨越文化遗产、医疗保健等五个领域。使用的模型包括KimiK2-1T、LLama3.1-8B、LLama3.2-3B、Gemini 2.5 Pro和GPT 4.1。实验中使用的指标包括可读性、结构复杂性和语义多样性。为了确保实验的可重复性，所有模型均通过其各自的API进行调用，参数设置为温度=0，Top-P=1，seed=46。

结果分析

实验结果表明，LLM的性能反映了由使用案例塑造的不同生成特征。封闭模型在稳定性和可读性上表现优异，而开放模型则在多样性上有更高的表现，但有时会牺牲清晰度。在个性化抑郁症治疗本体领域，KimiK2生成的问题在复杂性和可读性指标上得分最高，FKGL为21，显示其生成的问题在理解上需要较高的教育水平。相反，Gemini模型在大多数领域生成了最简洁、可读性最高的问题，FKGL得分最低，表明其生成的问题更直接、易于理解。

应用场景

本研究的应用场景包括本体工程中的需求获取和验证过程。通过自动生成高质量的能力问题，能够显著减少人工干预，提高效率。此外，这一方法还可以应用于其他需要自然语言接口的领域，如知识图谱构建和语义搜索。

局限与展望

尽管CompCQ框架提供了一个系统的方法来比较LLM生成的能力问题，但在处理复杂领域时，开放模型生成的问题复杂性显著增加，可能导致理解困难。此外，某些模型在特定领域生成的问题数量偏少，可能未能全面覆盖需求。封闭模型虽然生成稳定性较高，但在多样性上有所欠缺。未来的研究可以探索如何结合多种LLM以提高生成问题的覆盖率和多样性。

通俗解读非专业人士也能看懂

想象一下你在一家大超市工作，你的任务是帮助顾客找到他们需要的商品。每个顾客都有不同的需求，有的需要找到特定的商品，有的则需要根据某些条件进行推荐。为了更好地服务顾客，你需要提出一些问题来明确他们的需求，这些问题就像是能力问题（CQs）。

在传统的超市中，店员需要根据自己的经验和顾客的描述来手动提出这些问题，这个过程既耗时又需要丰富的经验。而在现代的智能超市中，我们可以使用一种叫做生成式AI的技术来自动生成这些问题。生成式AI就像是一个超级智能的助手，它可以根据顾客的描述快速生成一系列相关的问题，帮助店员更好地理解顾客的需求。

然而，不同的生成式AI助手在生成问题时可能会有不同的风格和特点。有的助手生成的问题简单明了，易于理解；有的则可能生成更复杂的问题，需要更多的背景知识来理解。因此，我们需要一个系统的方法来比较这些助手生成的问题，确保它们能够满足顾客的需求。

通过这种方法，我们可以更好地选择合适的助手来帮助我们服务顾客，提高工作效率，同时也能确保顾客得到他们所需的商品。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级酷的游戏，游戏里你是一个探险家，需要找到隐藏在地图上的宝藏。为了找到这些宝藏，你需要问一些问题，比如“这个宝藏在什么地方？”或者“我需要哪些工具才能找到它？”这些问题就像是我们在本体工程中用到的能力问题（CQs）。

在这个游戏里，你可以选择不同的助手来帮你生成这些问题。有的助手很聪明，能快速给出简单明了的问题；有的助手则喜欢给出复杂的问题，需要你动动脑筋才能理解。我们的任务就是找到最适合的助手，帮助我们更快地找到宝藏。

为了做到这一点，我们需要一个超级厉害的工具，叫做CompCQ。它能帮我们比较不同助手生成的问题，看看哪个助手更适合我们的探险任务。通过这个工具，我们可以知道哪个助手生成的问题更简单易懂，哪个助手生成的问题更有创意。

所以，下次当你在游戏里遇到困难时，别忘了用CompCQ来选择最好的助手，帮助你顺利完成任务，找到所有的宝藏！

术语表

能力问题 (Competency Questions)

能力问题是本体工程中用于需求获取的自然语言问题，帮助定义本体的范围和功能。

在本文中，能力问题用于评估LLM生成问题的质量和适用性。

生成式AI (Generative AI)

生成式AI是一种能够自动生成内容的人工智能技术，广泛应用于文本生成、图像生成等领域。

本文中，生成式AI用于自动生成能力问题。

大语言模型 (Large Language Models, LLMs)

大语言模型是基于深度学习的自然语言处理模型，具有大规模参数和强大的生成能力。

本文中，LLMs用于生成和比较不同领域的能力问题。

CompCQ框架

CompCQ是一个用于比较LLM生成的能力问题的多维框架，量化语言、句法和语义特征。

本文提出了CompCQ框架以系统分析LLM生成问题的复杂性和可读性。

可读性 (Readability)

可读性是指文本的易读程度，通常通过量化指标如Flesch-Kincaid等级来评估。

本文中，可读性用于评估LLM生成问题的理解难度。

结构复杂性 (Structural Complexity)

结构复杂性指文本的句法和语义复杂程度，影响其理解和处理难度。

本文中，结构复杂性用于分析LLM生成问题的复杂性。

语义多样性 (Semantic Diversity)

语义多样性指文本在语义上的多样性和覆盖范围，影响其信息丰富度。

本文中，语义多样性用于评估LLM生成问题的多样性。

开放模型 (Open Models)

开放模型是指可以自由访问和使用的LLM，通常具有较高的多样性和灵活性。

本文中，开放模型用于生成和比较不同领域的能力问题。

封闭模型 (Closed Models)

封闭模型是指由特定公司或组织控制访问的LLM，通常具有较高的稳定性和一致性。

本文中，封闭模型用于生成和比较不同领域的能力问题。

Flesch-Kincaid等级

Flesch-Kincaid等级是评估文本可读性的一种指标，表示理解文本所需的教育年限。

本文中，Flesch-Kincaid等级用于评估LLM生成问题的可读性。

开放问题这项研究留下的未解疑问

1 尽管CompCQ框架提供了一个系统的方法来比较LLM生成的能力问题，但在处理复杂领域时，开放模型生成的问题复杂性显著增加，可能导致理解困难。未来的研究可以探索如何优化框架以减少这种复杂性。
2 某些模型在特定领域生成的问题数量偏少，可能未能全面覆盖需求。这表明需要进一步研究如何提高LLM的生成覆盖率和多样性。
3 封闭模型虽然生成稳定性较高，但在多样性上有所欠缺。未来的研究可以探索如何在保持稳定性的同时提高多样性。
4 当前的研究主要集中在文本生成上，未来可以探索如何将CompCQ框架应用于其他生成任务，如图像生成和音频生成。
5 尽管LLM在生成能力问题上表现出色，但其在处理多语言和跨文化需求时的表现仍需进一步研究。

应用场景

近期应用

本体工程需求获取

通过自动生成高质量的能力问题，能够显著减少人工干预，提高本体工程中的需求获取效率。

知识图谱构建

生成式AI生成的能力问题可以用于指导知识图谱的构建和验证，确保其语义完整性。

语义搜索优化

通过生成相关能力问题，可以提高语义搜索的准确性和相关性，为用户提供更精准的搜索结果。

远期愿景

跨领域知识整合

通过生成能力问题，可以实现不同领域知识的整合和共享，促进跨学科合作和创新。

智能助手开发

未来可以开发基于生成式AI的智能助手，帮助用户在各种场景中快速获取所需信息，提高工作和生活效率。

原文摘要

Competency Questions (CQs) are a cornerstone of requirement elicitation in ontology engineering. CQs represent requirements as a set of natural language questions that an ontology should satisfy; they are traditionally modelled by ontology engineers together with domain experts as part of a human-centred, manual elicitation process. The use of Generative AI automates CQ creation at scale, therefore democratising the process of generation, widening stakeholder engagement, and ultimately broadening access to ontology engineering. However, given the large and heterogeneous landscape of LLMs, varying in dimensions such as parameter scale, task and domain specialisation, and accessibility, it is crucial to characterise and understand the intrinsic, observable properties of the CQs they produce (e.g., readability, structural complexity) through a systematic, cross-domain analysis. This paper introduces a set of quantitative measures for the systematic comparison of CQs across multiple dimensions. Using CQs generated from well defined use cases and scenarios, we identify their salient properties, including readability, relevance with respect to the input text and structural complexity of the generated questions. We conduct our experiments over a set of use cases and requirements using a range of LLMs, including both open (KimiK2-1T, LLama3.1-8B, LLama3.2-3B) and closed models (Gemini 2.5 Pro, GPT 4.1). Our analysis demonstrates that LLM performance reflects distinct generation profiles shaped by the use case.

cs.AI

参考文献 (20)

The Llama 3 Herd of Models

Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey 等

2024 14252 引用 ⭐ 高影响力查看解读 →

RevOnt: Reverse engineering of competency questions from knowledge graphs via language models

Fiorela Ciroku, Jacopo de Berardinis, Jongmo Kim 等

2024 24 引用 ⭐ 高影响力

An Experiment in Retrofitting Competency Questions for Existing Ontologies

Reham Alharbi, Valentina A. M. Tamma, Floriana Grasso 等

2023 25 引用 ⭐ 高影响力查看解读 →

Automating the Generation of Competency Questions for Ontologies with AgOCQs

M. Antia, C. Keet

2023 20 引用 ⭐ 高影响力

Characterising the Gap Between Theory and Practice of Ontology Reuse

Reham Alharbi, V. Tamma, Floriana Grasso

2021 11 引用

Use of Competency Questions in Ontology Engineering: A Survey

Glaice K. S. Quirino, J. S. Salamon, M. Barcellos

2023 26 引用

Assessing Candidate Ontologies for Reuse

Reham Alharbi

2021 3 引用

Towards a Methodology for Building Ontologies

M. Uschold, Martin King

1995 1061 引用

Analysis of Ontology Competency Questions and their formalizations in SPARQL-OWL

Dawid Wisniewski, Jedrzej Potoniec, Agnieszka Lawrynowicz 等

2019 75 引用

On the Roles of Competency Questions in Ontology Engineering

C. Keet, Z. Khan

2024 14 引用

Test-Driven Development of Ontologies

C. Keet, A. Ławrynowicz

2016 59 引用

CQChecker: A Tool to Check Ontologies in OWL-DL using Competency Questions written in Controlled Natural Language

Camila Bezerra, Filipe Santana, F. Freitas

2014 21 引用

The Role of Competency Questions in Enterprise Engineering

M. Gruninger, M. Fox

1995 389 引用

Computing Authoring Tests from Competency Questions: Experimental Validation

Matt Dennis, Kees van Deemter, Daniele Dell'Aglio 等

2017 21 引用

Evaluating the Evaluation of Diversity in Natural Language Generation

Guy Tevet, Jonathan Berant

2020 142 引用查看解读 →

A Review and Comparison of Competency Question Engineering Approaches

Reham Alharbi, Valentina A. M. Tamma, Floriana Grasso 等

2024 10 引用

OntoChat: a Framework for Conversational Ontology Engineering using Language Models

Bohui Zhang, Valentina Anita Carriero, Katrin Schreiberhuber 等

2024 35 引用查看解读 →

Assessing and Enhancing Bottom-up CNL Design for Competency Questions for Ontologies

M. Antia, C. Keet

2021 7 引用

A Comparative Study of Competency Question Elicitation Methods from Ontology Requirements

Reham Alharbi, Valentina A. M. Tamma, Terry R. Payne 等

2025 3 引用查看解读 →

The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata

Jacopo de Berardinis, Valentina Anita Carriero, Albert Meroño-Peñuela 等

2023 9 引用查看解读 →

Characterising LLM-Generated Competency Questions: a Cross-Domain Empirical Study using Open and Closed Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

能力问题 (Competency Questions)

生成式AI (Generative AI)

大语言模型 (Large Language Models, LLMs)

CompCQ框架

可读性 (Readability)

结构复杂性 (Structural Complexity)

语义多样性 (Semantic Diversity)

开放模型 (Open Models)

封闭模型 (Closed Models)

Flesch-Kincaid等级

开放问题 这项研究留下的未解疑问

应用场景

近期应用

本体工程需求获取

知识图谱构建

语义搜索优化

远期愿景

跨领域知识整合

智能助手开发

原文摘要

参考文献 (20)

相关论文

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Large Language Models Exhibit Normative Conformity

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问