云计算初创公司Parasail完成3200万美元A轮融资,专注为AI推理提供低成本算力服务。该公司每日处理5000亿个Token,通过在全球15个国家、40个数据中心智能调度工作负载,有效降低推理成本。随着开源模型和AI智能体的普及,开发者对廉价推理算力的需求激增。Parasail专注推理场景、灵活服务初创企业的策略,使其有望在竞争激烈的云计算市场中占据一席之地。
IBM一项涵盖500多组对照实验的研究揭示,"中间训练"(mid-training)是提升大语言模型推理能力的关键环节。研究发现,中间训练可将不同规模和架构模型的整体推理能力提升3至4倍,而跳过这一步骤、仅依赖强化学习的模型收益十分有限。研究还发现,两种训练阶段作用机制截然不同:中间训练会重构模型超过90%的权重,强化学习则仅调整约5%的参数。IBM已将相关训练流程开源,并应用于下一代Granite模型。