Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking
通过多任务BiLSTM和AutoML对印尼电商评论进行情感和情绪分类,达到了高精度。
Hermawan Manurung, Ibrahim Al-Kahfi, Ahmad Rizqi 等
通过多任务BiLSTM和AutoML对印尼电商评论进行情感和情绪分类,达到了高精度。
Hermawan Manurung, Ibrahim Al-Kahfi, Ahmad Rizqi 等
SeaEvo通过策略空间进化提升算法发现,系统优化任务中相对提升21%。
Sichun Luo, Yi Huang, Haochen Luo 等
通过表示稳定性提高表格检索的鲁棒性,使用中心化平均法减少格式特异性偏差。
Kushal Raj Bhandari, Adarsh Singh, Jianxi Gao 等
研究揭示LLM在生成叙述时对全球多数民族的代表性伤害,使用QA模型分析500,000个故事。
Ilana Nguyen, Harini Suresh, Thema Monroe-White 等
CRAFT方法通过聚类回归自适应筛选训练数据,在英印翻译中提升BLEU值2.13分。
Parthasarathi Panda, Asheswari Swain, Subhrakanta Panda
BERAG通过贝叶斯集成改进检索增强生成,显著提升知识型视觉问答性能。
Jinghong Chen, Jingbiao Mei, Guangyu Yang 等
EVENT5Ws:一个用于文档开放域事件抽取的大型数据集,提供手动注释和统计验证。
Praval Sharma, Ashok Samal, Leen-Kiat Soh 等
通过自然语言和符号视图对齐,发现LLM的共享逻辑子空间,提高逻辑推理准确率达11%。
Feihao Fang, My T. Thai, Yuanyuan Lei
InsightGen生成多样且相关的见解,提升开放式文档问答体验。
Saransh Sharma, Pritika Ramu, Aparna Garimella 等
通过GPT模型预测开放式调查文本的体验评分,提示优化提升2个百分点。
Andrew Hong, Jason Potteiger, Luis E. Zapata
微型语言模型(μLMs)通过在设备上生成前4-8个词,结合云端模型,实现即时响应。
Wen Cheng, Tuochao Chen, Karim Helwani 等
研究表明大语言模型影响了AI顶会的同行评审,尤其在语言复杂度和评价重点上。
Wenqing Wu, Chengzhi Zhang, Yi Zhao 等
研究揭示语言模型内部层与人类句子处理的双重对齐,早期层适合自然阅读,后期层更好模拟复杂句法处理。
Tatsuki Kuribayashi, Alex Warstadt, Yohei Oseki 等
GSQ通过Gumbel-Softmax采样实现高精度低比特量化,缩小了标量量化与QTIP方法的精度差距。
Alireza Dadgarnia, Soroush Tabesh, Mahdi Nikdan 等
使用转移矩阵正则化提高咨询对话中下一个对话行为预测的准确性,提升宏F1分数9-42%。
Eric Rudolph, Philipp Steigerwald, Jens Albrecht
ArbGraph通过冲突感知的证据仲裁提高长文本RAG的可靠性,减少幻觉现象。
Qingying Niu, Yuhao Wang, Ruiyang Ren 等
通过双重评估框架,分析LLMs在越南法律文本上的表现,揭示可读性与准确性之间的权衡。
Van-Truong Le
BAGEL基准测试评估语言模型在动物知识上的表现,使用闭卷问答对动物分类、形态等进行测试。
Jiacheng Shen, Masato Hagiwara, Milad Alizadeh 等
自蒸馏方法减少微调导致的幻觉,将事实遗忘率从15%降至3%。
Guy Kaplan, Zorik Gekhman, Zhen Zhu 等
SpecGuard通过内部信号进行逐步验证,提高多步骤推理的效率和准确性。
Kiran Purohit, Ramasuri Narayanam, Soumyabrata Pal