Inception推出Mercury 2大语言模型,号称全球最快推理LLM。该模型采用并行细化技术替代传统顺序解码,可同时生成多个标记并在少数步骤内收敛,显著提升生成速度。Mercury 2兼容OpenAI API,通过扩散推理在实时延迟预算内提供推理级质量,特别适用于编程编辑、智能体循环、实时语音交互等对延迟敏感的应用场景。
随着AI技术快速发展,企业正将工作负载从云端拉回本地。工程师再次专注于速度问题,通过边缘计算减少延迟。边缘计算将数据处理靠近数据源,显著降低延迟。混合云成为新趋势,不再是云端与边缘的优劣之争,而是针对特定工作负载选择合适方案。在国防等关键任务领域,边缘AI尤为重要,能够在网络中断时保持系统正常运行。