大规模GPU集群在前沿AI训练中普遍存在效率低下问题,实际性能仅达理论峰值的30%至50%。Clockwork Systems CEO Suresh Vasudevan指出,通过纳秒级服务器时钟同步技术,可在硬件故障发生时避免AI工作负载重启,消除因通信与同步瓶颈导致的GPU空闲损耗。此外,OpenAI与博通联合推出专为LLM推理设计的定制芯片Jalapeno,已支持GPT-5.3工作负载运行。