戴尔白皮书评估显示,在PowerFlex系统上运行的Regatta数据库能够有效解决传统数据库在分片、复杂性、成本、性能和扩展性方面的固有限制。测试结果表明,事务处理达到近百万IOPS,分析工作负载中五个计算密集型查询展现线性可扩展性,流数据处理成功摄入十亿行数据,单个Kafka客户端的行插入速率超过每秒百万行。
谷歌最新一代Ironwood TPU v7加速器即将上市,在性能上已接近英伟达Blackwell GPU水平。每颗TPU提供4.6 petaFLOPS的FP8性能,配备192GB HBM3e内存。谷歌真正优势在于规模化能力,TPU pod最多可容纳9216颗芯片,理论上可扩展至40万颗加速器。采用3D环面拓扑和光学电路交换技术,在大规模计算集群方面具有独特优势。
AI搜索提供商Perplexity开发了新的软件优化技术,让万亿参数大模型能在老旧、便宜的硬件上高效运行,包括使用亚马逊专有的弹性网络适配器。这项创新解决了大规模专家混合模型面临的内存和网络延迟挑战。研究显示,相比单节点配置,优化后的核心程序在多节点部署中实现了显著性能提升,使企业能更长时间利用现有硬件,或使用折扣云实例运行下一代前沿模型。
Python通过PEP 810提案正式引入惰性导入功能,允许程序延迟加载导入库直到实际需要时才执行,而非在启动时全部加载。该提案由指导委员会成员Pablo Salgado于10月3日提出并于11月3日获批。新功能采用选择性加入方式,保持向后兼容性的同时解决了社区长期面临的启动时间过长问题,标准化了当前分散的自定义解决方案。
WEKA的NeuralMesh高性能AI文件系统软件将在英伟达即将推出的BlueField-4 DPU上运行,实现完全无需x86控制处理器的闪存JBOD架构。BlueField-4 DPU配备Grace CPU和ConnectX-9网络,处理能力比BlueField-3提升6倍,支持800Gbps吞吐量。与传统CPU附加存储系统相比,该解决方案在智能AI工作流中可实现超过100倍的令牌/瓦特效率提升,为下一代AI工厂提供基础存储支持。
英伟达CEO黄仁勋在GTC 2025大会上展示了AI推理吞吐量与响应时间之间的帕累托前沿曲线。数据显示,从Hopper H200到Blackwell B200系统,通过硬件升级和软件优化,性能提升达25倍。值得注意的是,在AI领域,硬件性能提升约2倍,而软件优化可带来额外5倍提升。英伟达在数周内通过软件优化实现了过去需要两年才能达到的5倍性能提升,证明软件在AI性能提升中发挥着更关键的作用。
Anthropic发布了Claude Haiku 4.5小型AI语言模型,性能接近五个月前的前沿模型Claude Sonnet 4,但成本降低三分之二,速度提升一倍以上。该模型在SWE-bench编程测试中得分73.3%,与Sonnet 4的72.7%相当。API定价为每百万输入令牌1美元,输出令牌5美元,远低于其他大型模型。新模型专为实时低延迟任务设计,可与Sonnet 4.5协同工作处理复杂编程任务。
DAOS是英特尔Optane时代的并行文件系统产品,现已被英特尔抛弃。Enakta Labs等DAOS基金会成员正在重新激活这一高性能系统。DAOS曾在2023年IO500测试中获得1.3TBps带宽的顶级成绩。作为开源并行文件系统,DAOS需要与Storage Scale、Lustre等成熟产品竞争。Enakta Labs正在商业化DAOS,推出基于其的Enakta数据平台产品,支持S3、SMB、NFS和PyTorch。该公司认为DAOS凭借卓越性能和开源特性,有望在新兴云服务商中获得采用。
在今年的开放计算项目峰会上,英伟达宣布Meta和Oracle将采用其Spectrum-X以太网平台,这是专为AI工作负载打造的系统,可将数百万GPU连接成统一架构。该平台专门为大规模AI工作负载设计,声称网络性能比传统以太网提升1.6倍。Meta将其集成到开放交换系统中,Oracle则用它构建千兆级AI工厂,标志着网络已成为AI时代的新操作系统。
大多数企业不会训练自己的AI模型,而是专注于将AI应用到生产环境和推理阶段。核心任务包括数据微调和管理。关键技术包括检索增强生成、向量数据库、AI提示重用和副驾驶功能,让用户能用自然语言查询企业信息。由于GPU硬件更新速度快且成本高昂,企业更倾向于租用云端GPU容量。真正的AI价值在于推理阶段快速整理数据并优化现有模型。
英特尔今日发布基于最新18A制造工艺的Panther Lake笔记本处理器系列,将在亚利桑那州新建的Fab 52工厂生产。该系列包含三款系统级芯片,最高配置拥有16核CPU和12核GPU。新处理器采用四芯片设计,集成神经处理单元,每秒可执行50万亿次运算。相比上代产品,CPU和GPU性能提升50%,能耗降低10%。英特尔还预览了即将推出的Clearwater Forest服务器处理器系列,最高配置288个E核心。
高通在骁龙峰会上发布两款旗舰处理器:骁龙8 Elite Gen 5手机芯片和骁龙X2 Elite PC芯片,旨在成为新一代智能体AI的硅基础设施。新芯片采用3纳米工艺,CPU性能提升20%,能效提升35%,GPU性能提升23%,NPU速度提升37%。重点是支持情境感知、多模态AI代理,能实时理解用户需求并主动响应,实现设备间无缝协作。
bcachefs文件系统在被Torvalds逐出Linux内核后,发布了首个DKMS动态加载版本。目前内核6.17仍包含bcachefs代码但未更新,项目负责人发布了可动态加载的新版本,暂时仅支持Ubuntu和Debian发行版。性能测试显示DKMS版本表现更佳,多项测试中速度提升约一倍。openSUSE调整立场,计划在6.18版本才移除支持。
谷歌在AI基础设施峰会上披露了其AI推理的惊人规模增长。从2024年4月的9.7万亿tokens/月激增至2025年8月的约1460万亿tokens/月,增长49.5倍。公司推出全新Ironwood TPU v7p系统,性能比前代提升5倍,内存容量增加6倍,单集群可容纳9216个TPU。谷歌还展示了液冷技术和推理优化工具,可将推理延迟降低96%,吞吐量提升40%,成本降低30%。
NetApp本周推出StorageGRID对象存储平台第12版,新版本将改善AI工作负载扩展性,先进缓存技术可将训练和HPC工作负载性能提升20倍。客户可通过存储桶分支对AI数据集进行版本控制,支持空间高效的对象存储桶克隆。新版本还增强了加密标准、对象锁定等安全功能。集成缓存简化了AI工作流程中的缓存使用,性能比当前设备提升10倍。平台发布限制翻倍,单个集群可支持超过6000亿个对象。
数字内存计算芯片初创公司d-Matrix推出3D堆叠内存技术,声称相比当前行业标准HBM4,该技术可将AI模型运行速度提升10倍,能耗降低90%。该公司成立于2019年,采用LPDDR5内存配合数字内存计算硬件,通过改进的SRAM单元直接在内存阵列中执行计算。首款3DIMC芯片Pavehawk已在实验室投入运行,下一代架构Raptor将整合该技术。
Bun团队发布了1.2.21版本,新增MySQL和SQLite内置驱动、YAML解析器和密钥管理器等功能。新的数据库驱动属于Bun.SQL API,现已支持MySQL、MariaDB和SQLite。据称其MySQL客户端比Node.js的mysql2包快9倍。Bun.secrets为CLI工具和本地开发提供原生密钥管理。此版本还包含安全扫描API、独立可执行文件构建API等更新。
戴尔闪电项目为PowerScale集群文件系统存储带来并行化性能提升,早期测试反馈积极。该项目旨在为PowerScale和ObjectScale存储系统添加并行访问能力,实现97%网络利用率和支持数千个GPU。通过客户端软件层分布式读取和RDMA技术,直接从客户端访问设备而无需遍历文件系统,有望成为全球最快的并行文件系统,性能比竞争系统高出2倍。
英伟达发布Spectrum-XGS千兆级以太网交换平台,实现数据中心间互联协调,让分布式GPU集群如同一个巨型处理器运行。同时推出Dynamo推理服务框架,通过分解式服务技术将上下文构建和令牌生成分配到不同GPU,显著提升模型部署效率。在GPT和DeepSeek等模型测试中,令牌生成速度分别提升4倍和2.5倍,投机解码技术更实现35%性能提升。
PCIe总线是连接x86服务器、PC和笔记本电脑核心处理器与外设的重要技术。随着CPU和GPU性能提升,PCIe标准也在不断演进,每一代带宽都会翻倍。目前PCIe 4.0和5.0已广泛应用,首批6.0外设开始推出。即将到来的PCIe 7.0将提供128GT/s传输速率,可能采用光互连技术,主要面向超大规模数据中心和高性能计算领域。PCIe 8.0的初步开发已启动,预计传输速率将再次翻倍。