本文提出了一种简单且可扩展的框架,用于构建原生并行推理器。该推理器无需依赖外部教师模型即可学习自适应分解、多样化的并行规划和可靠的聚合。通过将自提炼的并行 SFT 与智能体并行 RL 相结合,NPR 能够生成真正的并行推理策略,而非模拟或脚本化的策略 ...
这项由西班牙马德里Komorebi AI Technologies研究团队发布的研究成果,以预印本形式于2026年5月12日在arXiv上公开,论文编号为arXiv:2505.09708v1,分类为计算机科学·机器学习方向。感兴趣的读者可以通过该编号在arXiv平台查阅完整原文。 说到底,这项研究要回答一个越来越切实的问题:当我们把写代码的任务交给AI,让它不断自我改进,我们怎么知道它改出来的东西 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果