Paper 解读 - Arxiv 论文中文解读平台

cs.CL 2604.24720

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

通过多任务BiLSTM和AutoML对印尼电商评论进行情感和情绪分类，达到了高精度。

Hermawan Manurung, Ibrahim Al-Kahfi, Ahmad Rizqi 等

2026-04-28 26

cs.CL 2604.24372

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

SeaEvo通过策略空间进化提升算法发现，系统优化任务中相对提升21%。

Sichun Luo, Yi Huang, Haochen Luo 等

2026-04-27 23

cs.CL 2604.24040

Improving Robustness of Tabular Retrieval via Representational Stability

通过表示稳定性提高表格检索的鲁棒性，使用中心化平均法减少格式特异性偏差。

Kushal Raj Bhandari, Adarsh Singh, Jianxi Gao 等

2026-04-27 21

cs.CL 2604.22749

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

研究揭示LLM在生成叙述时对全球多数民族的代表性伤害，使用QA模型分析500,000个故事。

Ilana Nguyen, Harini Suresh, Thema Monroe-White 等

2026-04-25 26

cs.CL 2604.22693

CRAFT: Clustered Regression for Adaptive Filtering of Training data

CRAFT方法通过聚类回归自适应筛选训练数据，在英印翻译中提升BLEU值2.13分。

Parthasarathi Panda, Asheswari Swain, Subhrakanta Panda

2026-04-25 34

cs.CL 2604.22678

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

BERAG通过贝叶斯集成改进检索增强生成，显著提升知识型视觉问答性能。

Jinghong Chen, Jingbiao Mei, Guangyu Yang 等

2026-04-25 26

cs.CL 2604.21890

EVENT5Ws: A Large Dataset for Open-Domain Event Extraction from Documents

EVENT5Ws：一个用于文档开放域事件抽取的大型数据集，提供手动注释和统计验证。

Praval Sharma, Ashok Samal, Leen-Kiat Soh 等

2026-04-24 29

cs.CL 2604.19716

Discovering a Shared Logical Subspace: Steering LLM Logical Reasoning via Alignment of Natural-Language and Symbolic Views

通过自然语言和符号视图对齐，发现LLM的共享逻辑子空间，提高逻辑推理准确率达11%。

Feihao Fang, My T. Thai, Yuanyuan Lei

2026-04-22 32

cs.CL 2604.19685

An Answer is just the Start: Related Insight Generation for Open-Ended Document-Grounded QA

InsightGen生成多样且相关的见解，提升开放式文档问答体验。

Saransh Sharma, Pritika Ramu, Aparna Garimella 等

2026-04-22 36

cs.CL 2604.19645

The signal is the ceiling: Measurement limits of LLM-predicted experience ratings from open-ended survey text

通过GPT模型预测开放式调查文本的体验评分，提示优化提升2个百分点。

Andrew Hong, Jason Potteiger, Luis E. Zapata

2026-04-22 30

cs.CL 2604.19642

Micro Language Models Enable Instant Responses

微型语言模型（μLMs）通过在设备上生成前4-8个词，结合云端模型，实现即时响应。

Wen Cheng, Tuochao Chen, Karim Helwani 等

2026-04-22 31

cs.CL 2604.19578

Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI

研究表明大语言模型影响了AI顶会的同行评审，尤其在语言复杂度和评价重点上。

Wenqing Wu, Chengzhi Zhang, Yi Zhao 等

2026-04-21 47

cs.CL 2604.18563

Dual Alignment Between Language Model Layers and Human Sentence Processing

研究揭示语言模型内部层与人类句子处理的双重对齐，早期层适合自然阅读，后期层更好模拟复杂句法处理。

Tatsuki Kuribayashi, Alex Warstadt, Yohei Oseki 等

2026-04-21 33

cs.CL 2604.18556

GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling

GSQ通过Gumbel-Softmax采样实现高精度低比特量化，缩小了标量量化与QTIP方法的精度差距。

Alireza Dadgarnia, Soroush Tabesh, Mahdi Nikdan 等

2026-04-21 32

cs.CL 2604.18539

Transition-Matrix Regularization for Next Dialogue Act Prediction in Counselling Conversations

使用转移矩阵正则化提高咨询对话中下一个对话行为预测的准确性，提升宏F1分数9-42%。

Eric Rudolph, Philipp Steigerwald, Jens Albrecht

2026-04-21 25

cs.CL 2604.18362

ArbGraph: Conflict-Aware Evidence Arbitration for Reliable Long-Form Retrieval-Augmented Generation

ArbGraph通过冲突感知的证据仲裁提高长文本RAG的可靠性，减少幻觉现象。

Qingying Niu, Yuhao Wang, Ruiyang Ren 等

2026-04-20 28

cs.CL 2604.16270

From Benchmarking to Reasoning: A Dual-Aspect, Large-Scale Evaluation of LLMs on Vietnamese Legal Text

通过双重评估框架，分析LLMs在越南法律文本上的表现，揭示可读性与准确性之间的权衡。

Van-Truong Le

2026-04-18 28

cs.CL 2604.16241

BAGEL: Benchmarking Animal Knowledge Expertise in Language Models

BAGEL基准测试评估语言模型在动物知识上的表现，使用闭卷问答对动物分类、形态等进行测试。

Jiacheng Shen, Masato Hagiwara, Milad Alizadeh 等

2026-04-18 26

cs.CL 2604.15574

Why Fine-Tuning Encourages Hallucinations and How to Fix It

自蒸馏方法减少微调导致的幻觉，将事实遗忘率从15%降至3%。

Guy Kaplan, Zorik Gekhman, Zhen Zhu 等

2026-04-17 29

cs.CL 2604.15244

From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

SpecGuard通过内部信号进行逐步验证，提高多步骤推理的效率和准确性。

Kiran Purohit, Ramasuri Narayanam, Soumyabrata Pal

2026-04-17 30