随着AI应用规模扩大,推理阶段成为网络瓶颈。与集中式训练不同,推理是分布式、延迟敏感且受实时约束。Arrcus发布AI推理网络架构AINF,基于其ArcOS操作系统,通过策略抽象层动态调度推理流量。该系统在Kubernetes编排和底层硬件间工作,根据延迟、功耗、数据主权等约束实时优化流量路由,支持vLLM等推理框架集成。