A Quantitative Characterization of Forgetting in Post-Training
通过正反向KL目标量化生成模型训练后遗忘,避免质量下降。
Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan
通过正反向KL目标量化生成模型训练后遗忘,避免质量下降。
Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan
EnTransformer结合Transformer与engression,实现多变量概率预测,优于现有模型。
Rajdeep Pathak, Rahul Goswami, Madhurima Panja 等
NeFTY通过可微物理框架实现高精度3D热扩散重建,显著提高缺陷定位准确性。
Tao Zhong, Yixun Hu, Dongzhe Zheng 等
Leech Lattice Vector Quantization (LLVQ) 提供高效的LLM压缩,优于Quip#和QTIP。
Tycho F. A. van der Ouderaa, Mart van Baalen, Paul Whatmough 等
利用跨物种迁移学习,提升皮层GABA能中间神经元的电生理到转录组映射精度。
Theo Schwider, Ramin Ramezani
MLP层在Transformer中执行二进制路由,GPT-2中验证其有效性,减少MLP层提升困惑度43.3%。
Peter Balogh