大语言模型推理文章列表第1页-至顶网频道

大语言模型推理关键字列表

Mindbeam发布开源AI推理框架，CPU推理性能最高提升96倍

初创公司Mindbeam AI发布开源AI推理框架Litespark-Inference，可让三值大语言模型在Apple、Intel、AMD及Arm等主流CPU上高效运行。基准测试显示，相比标准PyTorch实现，该框架吞吐量提升17至96倍，内存占用降低逾80%。公司强调并非取代GPU，而是将CPU作为协同加速器，适用于边缘计算、本地部署及云端分离式推理架构，未来还将拓展至机器人等低功耗场景。

Cerebras 专访第二部分：晶圆级芯片为何胜过 GPU？

Cerebras成功在纳斯达克上市，创下约55亿美元的半导体史上最大IPO纪录。其联合创始人Jean-Philippe Fricker在访谈中深入解析了"晶圆级"架构的真正含义——涵盖推理速度、热管理与能效表现。Cerebras已实现以每秒981个输出token的速度运行1万亿参数开源模型Kimi K2，比次快GPU云服务商快6.7倍，展现出晶圆级架构在AI推理领域的强大潜力。

Majestic Labs推出Prometheus服务器，突破AI大语言模型"内存瓶颈"

内存是现代AI大语言模型最严重的制约因素。AI硬件初创公司Majestic Labs开发的Prometheus服务器配备高达128TB内存，是英伟达DGX B300服务器的60多倍。该服务器采用统一DRAM架构，使用专有内存接口和定制聚合芯片，内存带宽达25.6TB/秒，搭载12颗Ignite AI处理单元，预计2027年出货。

Parasail获3200万美元融资，押注AI推理计算新赛道

云计算初创公司Parasail完成3200万美元A轮融资，专注为AI推理提供低成本算力服务。该公司每日处理5000亿个Token，通过在全球15个国家、40个数据中心智能调度工作负载，有效降低推理成本。随着开源模型和AI智能体的普及，开发者对廉价推理算力的需求激增。Parasail专注推理场景、灵活服务初创企业的策略，使其有望在竞争激烈的云计算市场中占据一席之地。

IBM一项涵盖500多组对照实验的研究揭示，"中间训练"（mid-training）是提升大语言模型推理能力的关键环节。研究发现，中间训练可将不同规模和架构模型的整体推理能力提升3至4倍，而跳过这一步骤、仅依赖强化学习的模型收益十分有限。研究还发现，两种训练阶段作用机制截然不同：中间训练会重构模型超过90%的权重，强化学习则仅调整约5%的参数。IBM已将相关训练流程开源，并应用于下一代Granite模型。

白皮书

数字化转型方略

人工智能