过去十年企业虚拟化基础设施运行稳定,但AI工作负载的兴起暴露了传统虚拟化架构的局限性。AI需要裸机级性能、高密度计算和低延迟互连,而传统虚拟机管理程序无法满足这些要求。虽然VMware许可费用上涨引发关注,但真正问题在于需要重构能够支持AI的运营模式,包括统一控制平面、多虚拟机管理程序支持和自动化部署能力。
英伟达在GTC大会上宣布,将使用价值200亿美元收购的Groq语言处理单元(LPU)技术,来提升新发布的Vera Rubin机架系统的AI推理性能。这项技术使英伟达能够以每用户每秒数百至数千个token的速度服务大型语言模型。LPU专门优化低延迟token生成,与GPU配合使用,GPU处理计算密集型提示处理,LPU负责快速生成响应。
在智能自动化大会上,行业领袖探讨了为何许多自动化项目在试点阶段后停滞不前。皇家邮政流程自动化分析师Promise Akwaowo与NatWest集团、液化空气、AXA XL代表共同强调,扩展自动化的关键在于架构弹性而非简单增加机器人数量。基础设施必须能够预测性地处理容量和变化,避免在季度末财务报告或供应链突发事件等需求激增时系统性能下降或崩溃。
Anthropic推出Agent Skills后,引发了架构设计的根本问题:什么时候该用智能体,什么时候该用技能模块?智能体是具备完整决策能力的实体,而技能模块是可重用的专业知识包。早期智能体系统面临上下文窗口臃肿、能力扩展困难等问题。技能模块通过渐进式加载和模块化设计解决了这些挑战。最佳实践是构建配备合适技能的智能体,让智能体负责编排和质量控制,技能模块提供专业能力。
Databricks发布新的"指令检索器"架构,结合传统数据库查询与RAG相似性搜索,提供更精准的AI响应。该技术将用户请求分解为具体搜索词和过滤指令,确保检索文档符合时间、元数据等约束条件。相比传统RAG仅依赖文本相似性,指令检索器能处理企业级复杂业务规则和多步骤决策。但专家指出,成功采用需要企业具备完善的数据治理、元数据管理和跨团队协作能力。
微软最新调研显示,超过半数企业在AI规模化部署时面临基础设施不足问题。传统架构难以支撑AI工作负载需求,企业需要采用混合云原生设计、高带宽低延迟连接、零信任安全等现代化架构。GPU基础设施建设复杂,需要专门的网络优化和负载均衡。扁平化架构设计、统一数据平台和平台工程方法是实现AI韧性部署的关键策略。
分布式计算初创公司Taho完成350万美元种子轮融资,目标是替代Kubernetes成为人工智能工作负载的主要编排和调度层。该公司由来自Meta、谷歌和Snap的基础设施资深人员创建,声称其计算框架可将工作负载处理时间提升最多100%,同时大幅降低成本。Taho开发了高性能联邦计算框架,通过替换复杂的基础设施软件来提高AI硬件效率。
谷歌宣布为云客户推出定制Ironwood芯片,这款张量处理单元可在单个pod中扩展至9216个芯片,成为该公司迄今最强大的AI加速器架构。新芯片将在未来几周内向客户提供,同时推出基于Arm的新Axion实例,承诺提供比当前x86替代方案高达两倍的性价比。该公司还扩展了Axion产品线,推出N4A第二代虚拟机和C4A金属实例预览版本。
谷歌云推出开放湖仓架构,解决企业数据孤岛问题,统一结构化与非结构化数据管理。该平台基于BigLake存储引擎构建,采用Apache Iceberg开放格式,支持多模态数据处理。通过Dataplex通用目录实现数据治理,提供实时AI响应能力。平台支持BigQuery和Spark等多种引擎,与Vertex AI集成,加速模型开发,简化工具链,帮助企业快速实现AI价值。
随着VMware推进基于核心虚拟化技术的私有云愿景,竞争对手正加速开发替代方案。OpenNebula发布7.0版本,新增ARM处理器支持和增强的PCI直通功能,可部署在AI工厂中。红帽OpenShift Virtualization 4.19版本在Azure、Oracle云和谷歌云上提供技术预览。容器运行时Edera使用Rust重写了开源Xen虚拟机管理程序的控制平面。Nutanix发布7.3版本,增加多集群虚拟交换机。这些活动源于博通对VMware的改变,后者专注于价格昂贵的Cloud Foundation套件。
随着AI模型参数达到数十亿甚至万亿级别,工程团队面临内存约束和计算负担等共同挑战。新兴技术正在帮助解决这些问题:输入和数据压缩技术可将模型压缩50-60%;稀疏性方法通过关注重要区域节省资源;调整上下文窗口减少系统资源消耗;动态模型和强推理系统通过自学习优化性能;扩散模型通过噪声分析生成新结果;边缘计算将数据处理转移到网络端点设备。这些创新方案为构建更高效的AI架构提供了可行路径。
英伟达发布了基于 Meta 旧版 Llama-3.1 的全新开源大语言模型 Llama-3.1-Nemotron-Ultra-253B。该模型在多项第三方基准测试中表现出色,尽管参数量仅为 DeepSeek R1 的一半,但在许多任务上都超越了这个强大的竞争对手。新模型支持高级推理、指令跟随和 AI 助手工作流,采用了创新架构和针对性后训练来优化性能。