IBM一项涵盖500多组对照实验的研究揭示,"中间训练"(mid-training)是提升大语言模型推理能力的关键环节。研究发现,中间训练可将不同规模和架构模型的整体推理能力提升3至4倍,而跳过这一步骤、仅依赖强化学习的模型收益十分有限。研究还发现,两种训练阶段作用机制截然不同:中间训练会重构模型超过90%的权重,强化学习则仅调整约5%的参数。IBM已将相关训练流程开源,并应用于下一代Granite模型。