Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI

TL;DR

研究表明大语言模型影响了AI顶会的同行评审，尤其在语言复杂度和评价重点上。

cs.CL 🟡 进阶级 2026-04-21 48 次浏览

Wenqing Wu Chengzhi Zhang Yi Zhao Tong Bao

AI 阅读器 Arxiv 原文下载 PDF

大语言模型同行评审学术交流文本分析人工智能

核心发现

方法论

本研究采用最大似然估计法识别可能由大语言模型修改或生成的评审报告，并自动标注评审句子的评价维度。通过分析ICLR和NeurIPS会议的评审文本，研究了大语言模型对评审文本长度、语言复杂度及评价重点的影响。

关键结果

结果1：在大语言模型出现后，ICLR和NeurIPS的评审文本变得更长、更流畅，特别是低信心评分的评审者，文本长度和流畅性显著增加。
结果2：大语言模型辅助的评审报告中，对总结和表面清晰度的关注增加，而对原创性、可重复性和细致批判性推理的关注减少。
结果3：大语言模型辅助的评审报告在推荐信息的丰富性上有适度的正面影响。

研究意义

本研究揭示了大语言模型对学术同行评审过程的深远影响，尤其是在语言表达和评价维度上的变化。这些发现有助于理解大语言模型如何改变学术交流的动态，并为改进评审实践提供了实用见解。

技术贡献

本研究首次从细粒度角度系统分析了大语言模型对同行评审文本的影响，提出了一种结合最大似然估计和自动标注的分析框架，为同行评审过程的改进提供了新的技术手段。

新颖性

本研究是首次细致分析大语言模型对同行评审文本语言复杂度和评价重点影响的研究，区别于以往仅关注整体文本变化的研究。

局限性

局限1：研究主要基于ICLR和NeurIPS的公开数据，可能不适用于其他领域的会议。
局限2：最大似然估计法的准确性依赖于训练数据的质量，可能存在误判。
局限3：未能深入探讨大语言模型对评审者主观偏见的潜在影响。

未来方向

未来研究可以扩展到其他学科领域的同行评审，探索大语言模型对不同领域评审过程的影响。此外，可以开发更精确的检测模型，以提高对大语言模型生成内容的识别能力。

AI 总览摘要

随着大语言模型（LLMs）的快速发展，学术界尤其是在学术交流领域面临前所未有的冲击。同行评审的主要功能是提高学术稿件的质量，包括清晰度、原创性和其他评价方面。虽然先前的研究表明LLMs开始影响同行评审，但尚不清楚它们是否改变了评审的核心评价功能。此外，LLMs对评审报告的语言形式、评价重点和推荐相关信号的影响程度尚未得到系统研究。

本研究通过分析ICLR和NeurIPS会议的评审文本，探讨了大语言模型出现后同行评审报告的变化，特别是在细粒度层面的变化。具体而言，我们研究了评审评论中词汇和句子的长度和复杂度，同时自动标注了个别评审句子的评价维度。我们还使用先前建立的最大似然估计方法，识别可能由LLMs修改或生成的评审报告。最后，我们评估了LLMs辅助的评审报告中提到的评价维度对论文决策推荐信息丰富性的影响。

研究结果表明，在LLMs出现后，同行评审文本变得更长、更流畅，对总结和表面清晰度的关注增加，同时语言模式更加标准化，特别是低信心评分的评审者。这些现象在比较LLMs辅助和非LLMs辅助的评审时更为明显，且LLMs辅助报告中提到的方面对推荐信息的丰富性有适度的正面影响。

这些发现揭示了大语言模型对学术同行评审过程的深远影响，尤其是在语言表达和评价维度上的变化。这些变化可能会影响学术交流的动态，并对评审实践的公平性和透明性产生影响。因此，理解这些影响有助于改进同行评审实践，确保公平和透明，并为适应不断变化的学术环境提供可操作的见解。

然而，本研究也存在一些局限性。首先，研究主要基于ICLR和NeurIPS的公开数据，可能不适用于其他领域的会议。其次，最大似然估计法的准确性依赖于训练数据的质量，可能存在误判。最后，未能深入探讨大语言模型对评审者主观偏见的潜在影响。未来研究可以扩展到其他学科领域的同行评审，探索大语言模型对不同领域评审过程的影响。此外，可以开发更精确的检测模型，以提高对大语言模型生成内容的识别能力。

深度分析

研究背景

同行评审是学术研究和出版过程中的关键质量控制机制，其主要目的是确保学术研究的严谨性和可信度，帮助作者改进作品，并识别潜在的错误和不足。然而，近年来，由于论文提交量激增和合格领域专家短缺，特别是在顶级人工智能会议上，同行评审机制面临广泛批评。当前的同行评审过程面临几个挑战，包括偏见、评审质量的差异、评审动机不明确和评审机制不完善。随着提交量的不断增加，这些问题变得愈加明显。一些研究人员试图通过提高公平性、减少新手评审者的偏见、校准噪声同行评审评分以及改进匹配论文与评审者专业知识的机制来缓解这些问题。其他研究则探索使用自然语言处理技术来支持或优化同行评审过程。这些研究引入了利用人工智能来协助负担过重的科学家进行同行评审的可能性。尽管这些技术可能在某种程度上帮助评审者，但它们对同行评审过程的影响仍需进一步研究。

近年来，大语言模型（LLMs）展示的惊人能力引发了学术界的广泛研究和讨论。同时，学术界对LLMs可能侵蚀同行评审的担忧也随之而来。研究人员也开始研究和分析LLMs在同行评审过程中的应用和影响。例如，Liang等人不仅评估了GPT-4在生成科学反馈方面的有效性，还提出了一种方法来估计LLMs在同行评审文本中的使用程度。他们发现，最近一些AI会议的评审可能已被LLMs修改。Latona等人调查了ICLR 2024年LLM辅助同行评审的普及率和影响，发现LLM辅助评审显著影响了评审评分和提交接受率。尽管这些初步研究表明LLMs已开始影响同行评审，但它们是否改变了同行评审的核心功能仍未得到充分探索。随着LLMs越来越多地融入学术工作流程，分析它们对同行评审的影响变得尤为重要，包括语言模式、评价维度和评审者推荐的影响。理解这些影响有助于改进同行评审实践，确保公平和透明，并为适应不断变化的学术环境提供可操作的见解。值得注意的是，像NeurIPS这样的主要会议尚未明确规定评审者是否可以使用LLMs来协助撰写报告。这种政策上的模糊性凸显了研究LLM辅助可能已经在塑造同行评审文本的语言和评价特征的重要性。

核心问题

本研究旨在探讨大语言模型（LLMs）对同行评审文本的语言复杂度和内容表达的影响。具体而言，研究关注以下三个核心问题：

1. 大语言模型的出现如何影响同行评审文本的语言复杂度和维度级别的内容表达？

2. 与非LLM辅助的评审相比，LLM辅助的评审中哪些评价维度更为突出？

3. LLM辅助评审中强调的评价维度如何与评审者的评分和信心水平相关联？

这些问题的解决对于理解LLMs在学术评审过程中的作用以及如何改进评审实践具有重要意义。

核心创新

本研究的核心创新在于：

�� 细粒度分析：首次从细粒度角度系统分析了大语言模型对同行评审文本的影响，区别于以往仅关注整体文本变化的研究。

�� 方法创新：结合最大似然估计法和自动标注技术，提出了一种新的分析框架，用于识别可能由大语言模型修改或生成的评审报告。

�� 数据分析：通过分析ICLR和NeurIPS会议的评审文本，揭示了大语言模型对评审文本长度、语言复杂度及评价重点的影响。

这些创新为理解大语言模型在学术交流中的作用提供了新的视角。

方法详解

本研究采用了一种细致的分析方法，具体步骤如下：

�� 数据收集与处理：选择ICLR和NeurIPS两个顶级会议作为数据来源，利用OpenReview平台获取评审文本数据。

�� 评审句子维度识别：基于Yuan等人的研究，采用预训练的维度识别模型对评审句子进行自动标注，识别出八个评价维度。

�� LLM辅助评审文本检测：使用Liang等人设计的最大似然估计模型，结合预定义的术语词典，检测可能由LLMs辅助生成的评审文本。

�� 词汇复杂度与句法复杂度分析：利用TAALES和TAASSC工具分别计算评审文本的词汇复杂度和句法复杂度，分析其变化趋势。

实验设计

实验设计包括以下几个方面：

�� 数据集：选择ICLR和NeurIPS会议的评审文本数据，涵盖多个年份，以便分析大语言模型出现前后的变化。

�� 基线：与非LLM辅助的评审文本进行比较，分析LLM辅助对评审文本的影响。

�� 评价指标：包括评审文本的长度、词汇复杂度、句法复杂度及评价维度的分布。

�� 超参数：在最大似然估计模型中，调整参数以提高LLM辅助文本检测的准确性。

结果分析

研究结果表明：

�� 在大语言模型出现后，ICLR和NeurIPS的评审文本变得更长、更流畅，特别是低信心评分的评审者，文本长度和流畅性显著增加。

�� LLM辅助的评审报告中，对总结和表面清晰度的关注增加，而对原创性、可重复性和细致批判性推理的关注减少。

�� LLM辅助的评审报告在推荐信息的丰富性上有适度的正面影响。这些发现揭示了大语言模型对学术同行评审过程的深远影响，尤其是在语言表达和评价维度上的变化。

应用场景

本研究的应用场景包括：

�� 学术评审：为学术会议和期刊提供改进评审实践的参考，尤其是在评审文本的语言和评价维度上。

�� 教育领域：为教育机构提供关于大语言模型在学术交流中的作用的洞见，帮助学生和研究人员更好地理解和利用这些技术。

�� 人工智能研究：为AI研究人员提供关于大语言模型在自然语言处理和生成方面的应用和影响的实证数据。

局限与展望

尽管本研究揭示了大语言模型对同行评审的影响，但仍存在一些局限性：

�� 数据局限：研究主要基于ICLR和NeurIPS的公开数据，可能不适用于其他领域的会议。

�� 检测模型的准确性：最大似然估计法的准确性依赖于训练数据的质量，可能存在误判。

�� 主观偏见：未能深入探讨大语言模型对评审者主观偏见的潜在影响。未来研究可以扩展到其他学科领域的同行评审，探索大语言模型对不同领域评审过程的影响。此外，可以开发更精确的检测模型，以提高对大语言模型生成内容的识别能力。

通俗解读非专业人士也能看懂

想象一下你在一个大型图书馆工作，负责审阅和推荐书籍。传统上，你会仔细阅读每本书，分析其内容、写作风格和独特性，然后给出你的评价和推荐。然而，随着科技的发展，你有了一个智能助手，它可以快速扫描书籍，帮助你识别书中的主要观点和写作风格。

这个智能助手就是大语言模型。它可以帮助你更快地完成工作，但也可能影响你的判断。比如，它可能会更关注书籍的总结和表面清晰度，而忽略一些深层次的原创性和批判性思考。

在这个过程中，你会发现，虽然智能助手让你的工作更高效，但也带来了新的挑战。你需要更加小心地平衡助手的建议和自己的判断，确保推荐的书籍既有趣又有深度。

这就像在学术评审中使用大语言模型一样。它们可以帮助评审者更快地撰写评审报告，但也可能影响评审的深度和质量。因此，理解和管理这些影响对于保持评审的公正性和质量至关重要。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在学校里参加一个超级酷的科学比赛，评委们需要给每个项目打分。传统上，评委们会花很多时间阅读每个项目，分析它们的创意和科学性，然后给出他们的评价。

但现在，评委们有了一个超级助手——大语言模型！这个助手就像一个超级聪明的机器人，可以快速阅读项目，帮助评委们识别项目的主要亮点和写作风格。听起来很酷，对吧？

不过，这个助手也有点小问题。它可能会更关注项目的总结和表面清晰度，而忽略一些深层次的创意和批判性思考。这就像在玩游戏时，只关注角色的外观，而忽略了角色的技能和策略。

所以，虽然这个助手让评审变得更快，但评委们也需要更加小心地平衡助手的建议和自己的判断，确保选出的项目既有趣又有深度。就像在游戏中，你需要平衡角色的外观和技能，才能赢得比赛！

术语表

大语言模型 (Large Language Model)

大语言模型是一种基于深度学习的自然语言处理模型，能够生成和理解人类语言。它们通常具有数十亿参数，能够处理复杂的语言任务。

在论文中用于分析评审文本的语言复杂度和评价维度。

同行评审 (Peer Review)

同行评审是学术研究和出版过程中的一种质量控制机制，通过专家对学术稿件的评估来确保其质量和可信度。

在论文中用于分析大语言模型对评审过程的影响。

最大似然估计 (Maximum Likelihood Estimation)

最大似然估计是一种统计方法，用于估计模型参数，使得观察数据的概率最大化。

在论文中用于识别可能由大语言模型生成的评审文本。

语言复杂度 (Linguistic Complexity)

语言复杂度指的是文本中词汇和句法的复杂程度，包括词汇的多样性和句法的复杂性。

在论文中用于分析大语言模型对评审文本的影响。

评价维度 (Evaluation Aspect)

评价维度是指评审过程中关注的不同方面，如清晰度、原创性、可重复性等。

在论文中用于分析评审文本中不同维度的分布。

ICLR (International Conference on Learning Representations)

ICLR是一个国际顶级机器学习会议，专注于学习表示的研究。

在论文中作为数据来源之一，用于分析评审文本的变化。

NeurIPS (Conference on Neural Information Processing Systems)

NeurIPS是一个国际顶级人工智能会议，涵盖神经信息处理系统的研究。

在论文中作为数据来源之一，用于分析评审文本的变化。

OpenReview

OpenReview是一个开放的学术评审平台，允许研究人员提交和评审学术论文。

在论文中用于获取ICLR和NeurIPS会议的评审文本数据。

TAALES

TAALES是一种评估文本词汇复杂度的工具，能够计算多种词汇复杂度指标。

在论文中用于分析评审文本的词汇复杂度。

TAASSC

TAASSC是一种评估文本句法复杂度的工具，能够计算多种句法复杂度指标。

在论文中用于分析评审文本的句法复杂度。

开放问题这项研究留下的未解疑问

1 大语言模型对评审者主观偏见的影响尚未得到充分研究。现有研究主要关注语言复杂度和评价维度的变化，而忽略了评审者在使用大语言模型时可能产生的偏见。这一领域的深入研究可以帮助改进评审实践，确保评审的公正性和透明性。
2 现有的检测模型在识别大语言模型生成内容时的准确性仍有待提高。虽然最大似然估计法在一定程度上能够识别LLM辅助的评审文本，但其准确性依赖于训练数据的质量，可能存在误判。开发更精确的检测模型是未来研究的重要方向。
3 大语言模型在不同领域的评审过程中的影响尚未得到系统研究。现有研究主要集中在人工智能领域，而其他学科领域的评审过程可能受到不同因素的影响。扩展研究范围可以帮助全面理解大语言模型在学术交流中的作用。
4 大语言模型对评审文本内容深度的影响需要进一步探讨。虽然研究表明LLM辅助的评审文本在总结和表面清晰度上有所提高，但对原创性和批判性推理的关注减少。这一现象的原因和解决方案值得进一步研究。
5 大语言模型在学术评审中的应用政策尚不明确。虽然一些会议已经开始讨论LLM的使用，但尚未形成统一的政策。明确的政策可以帮助规范LLM在评审过程中的使用，确保评审的公平性和透明性。

应用场景

近期应用

学术会议评审

大语言模型可以帮助学术会议提高评审效率，特别是在处理大量提交时。通过自动生成评审报告，评审者可以更专注于关键问题，提高评审质量。

期刊编辑

期刊编辑可以利用大语言模型快速筛选稿件，识别潜在的高质量文章。这可以减少编辑的工作量，并提高期刊的整体质量。

教育评估

大语言模型可以用于教育领域的评估任务，如学生论文的自动评分和反馈生成。这可以帮助教师节省时间，并为学生提供更及时的反馈。

远期愿景

跨学科评审

大语言模型可以扩展到其他学科领域的评审过程，提高评审的效率和质量。这可以促进跨学科的合作和交流，推动科学研究的发展。

自动化学术交流

随着技术的发展，大语言模型可能在未来实现更高程度的学术交流自动化。这将改变学术界的工作方式，提高研究的效率和创新性。

原文摘要

With the rapid advancement of Large Language Models (LLMs), the academic community has faced unprecedented disruptions, particularly in the realm of academic communication. The primary function of peer review is improving the quality of academic manuscripts, such as clarity, originality and other evaluation aspects. Although prior studies suggest that LLMs are beginning to influence peer review, it remains unclear whether they are altering its core evaluative functions. Moreover, the extent to which LLMs affect the linguistic form, evaluative focus, and recommendation-related signals of peer-review reports has yet to be systematically examined. In this study, we examine the changes in peer review reports for academic articles following the emergence of LLMs, emphasizing variations at fine-grained level. Specifically, we investigate linguistic features such as the length and complexity of words and sentences in review comments, while also automatically annotating the evaluation aspects of individual review sentences. We also use a maximum likelihood estimation method, previously established, to identify review reports that potentially have modified or generated by LLMs. Finally, we assess the impact of evaluation aspects mentioned in LLM-assisted review reports on the informativeness of recommendation for paper decision-making. The results indicate that following the emergence of LLMs, peer review texts have become longer and more fluent, with increased emphasis on summaries and surface-level clarity, as well as more standardized linguistic patterns, particularly reviewers with lower confidence score. At the same time, attention to deeper evaluative dimensions, such as originality, replicability, and nuanced critical reasoning, has declined.

cs.CL cs.AI cs.DL cs.IR

参考文献 (20)

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Weixin Liang, Zachary Izzo, Yaohui Zhang 等

2024 201 引用 ⭐ 高影响力查看解读 →

Automated scholarly paper review: Concepts, technologies, and challenges

Jialiang Lin, Jiaxin Song, Zhangping Zhou 等

2021 38 引用 ⭐ 高影响力查看解读 →

The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates

Giuseppe Russo, Manoel Horta Ribeiro, Tim R. Davidson 等

2024 61 引用 ⭐ 高影响力查看解读 →

Can We Automate Scientific Reviewing?

Weizhe Yuan, Pengfei Liu, Graham Neubig

2021 120 引用 ⭐ 高影响力查看解读 →

Scientists are working overtime: when do scientists download scientific papers?

Yu Geng, Renmeng Cao, Xiaopu Han 等

2022 10 引用

LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing

Jiangshu Du, Yibo Wang, Wenting Zhao 等

2024 66 引用查看解读 →

Can large language models provide useful feedback on research papers? A large-scale empirical analysis

Weixin Liang, Yuhui Zhang, Hancheng Cao 等

2023 286 引用查看解读 →

A harm reduction approach to improving peer review by acknowledging its imperfections

S. Cooke, Nathan Young, K. Peiman 等

2024 8 引用

On the peer review reports: does size matter?

Abdelghani Maddi, Luis Miotti

2024 8 引用查看解读 →

ReviewRobot: Explainable Paper Review Generation based on Knowledge Synthesis

Qingyun Wang, Qi Zeng, Lifu Huang 等

2020 79 引用查看解读 →

The state of the art in peer review

Jonathan P. Tennant

2018 130 引用

A One-Size-Fits-All Approach to Improving Randomness in Paper Assignment

Yixuan Even Xu, Steven Jecmen, Zimeng Song 等

2023 8 引用查看解读 →

An Open Review of OpenReview: A Critical Analysis of the Machine Learning Conference Review Process

David Tran, Alex Valtchanov, Keshav Ganapathy 等

2020 40 引用查看解读 →

Calibrating "Cheap Signals" in Peer Review without a Prior

Yuxuan Lu, Yuqing Kong

2023 10 引用查看解读 →

Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis

Jianxiang Yu, Zichen Ding, Jiaqi Tan 等

2024 26 引用查看解读 →

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

E. Mitchell, Yoonho Lee, Alexander Khazatsky 等

2023 970 引用查看解读 →

AgentReview: Exploring Peer Review Dynamics with LLM Agents

Yiqiao Jin, Qinlin Zhao, Yiyang Wang 等

2024 79 引用查看解读 →

Automatic Analysis of Substantiation in Scientific Peer Reviews

Yanzhu Guo, Guokan Shang, Virgile Rennard 等

2023 18 引用查看解读 →

Mapping the Increasing Use of LLMs in Scientific Papers

Weixin Liang, Yaohui Zhang, Zhengxuan Wu 等

2024 146 引用查看解读 →

Double‐blind peer review affects reviewer ratings and editor decisions at an ecology journal

C. W. Fox, Jennifer A. Meyer, Emilie Aimé

2023 84 引用

Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

大语言模型 (Large Language Model)

同行评审 (Peer Review)

最大似然估计 (Maximum Likelihood Estimation)

语言复杂度 (Linguistic Complexity)

评价维度 (Evaluation Aspect)

ICLR (International Conference on Learning Representations)

NeurIPS (Conference on Neural Information Processing Systems)

OpenReview

TAALES

TAASSC

开放问题 这项研究留下的未解疑问

应用场景

近期应用

学术会议评审

期刊编辑

教育评估

远期愿景

跨学科评审

自动化学术交流

原文摘要

参考文献 (20)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问