南京大学团队开发了名为DiP的AI图像生成系统,突破了传统方法在质量与效率间的平衡难题。该系统采用"先整体后局部"策略,通过扩散变换器构建图像整体结构,再用轻量级补丁细节头添加精致细节。在ImageNet测试中,DiP获得1.79的最佳FID分数,同时推理速度比前代像素级方法快10倍以上,为AI绘画技术带来重要突破。
阿里通义实验室的研究团队通过精巧的数学分析,首次揭示了AI快速图像生成技术的真实工作机制。他们发现原本被认为起主导作用的"分布匹配"实际上只是稳定器,而被忽视的"CFG增强"才是核心驱动力。基于这一发现,团队提出了解耦调度策略,为两个机制制定专门的工作计划,显著提升了图像生成质量和速度,该方法已被知名Z-Image项目成功采用。
蚂蚁集团联合西湖大学发布HSA-UltraLong模型,成功将AI上下文长度扩展至16M标记,相当于32本小说容量。该技术采用分层稀疏注意力机制,模仿人类选择性记忆,在超长文本中保持90%以上检索准确率,为构建具备长期记忆能力的AI系统提供重要突破。
约翰霍普金斯大学研究团队开发出Captain Safari视频生成系统,首次实现了在复杂3D轨迹下的长期视觉一致性。该系统通过创新的"世界记忆"机制,能根据摄像机位置智能检索相关场景信息,生成高质量的第一人称视角视频。同时构建了OpenSafari数据集,包含真实无人机飞行视频用于验证。实验显示该技术在视频质量、3D一致性和轨迹跟踪方面均显著优于现有方法,为虚拟现实、影视制作和游戏开发等领域带来重要突破。
这项研究首次系统评估了语言模型的自我改进能力,发现即使是最先进的AI模型在无指导的自我改进中表现也很差,最好的模型得分仅31.3%。但当提供明确反馈时,大型模型可达90%以上的优秀表现。研究揭示AI的核心问题是无法准确识别需要改进的地方,而非缺乏改进能力本身。
中科大团队提出DualVLA系统,创新性解决了机器人"聪明反被聪明误"的行动退化难题。通过双层数据剪枝清除冗余推理,采用双教师蒸馏策略平衡思考与操作能力,并建立VLA Score多维评估体系。实验显示该方法在SimplerEnv平台达到61.0%成功率,实现了机器人推理与行动能力的有机统一。
英伟达宣布推出Alpamayo-R1开源推理视觉语言模型,专为自动驾驶研究设计,这是首个专注于自动驾驶的视觉语言行动模型。该模型基于英伟达Cosmos Reason模型构建,能够处理文本和图像,让车辆"看见"周围环境并做出决策。英伟达还发布了Cosmos Cookbook开发指南,帮助开发者训练和使用模型。这些技术对实现L4级自动驾驶至关重要。
波兰AI语音公司ElevenLabs由两位30岁创始人Staniszewski和Dabkowski创立,其AI语音技术能够生成极其逼真的人声。公司在四年内从零发展到估值66亿美元,两位创始人均成为亿万富翁。该公司年收入1.93亿美元,净利润1.16亿美元,服务客户包括思科、Epic Games等知名企业。尽管面临深度伪造等技术滥用风险,ElevenLabs仍在与谷歌、微软等科技巨头竞争AI语音市场主导地位。
英国第三大超市Asda因与前东家沃尔玛的技术分离项目延误,包括完整的SAP ERP升级,造成"严重破坏",影响第三季度营收同比下降2.8%至51亿英镑。该公司的"未来项目"技术分离计划虽已于8月完成,但系统整合问题持续影响运营,特别是库存流动和在线业务。董事长表示这些IT问题完全是"自我造成",归因于整合不当、测试不足和容量规划缺失,预计影响将持续到明年第二季度。
HorizonH收购数据管理公司Atempo,新任CEO表示将专注于Miria产品的大规模数据集迁移能力。新管理层认为Atempo此前缺乏重点,计划重建Miria迁移引擎核心,提升扫描速度和并行处理能力。公司将利用HPC和AI融合趋势,把握非结构化数据增长机遇,通过改进营销策略扩大国际市场份额。
英伟达向芯片设计软件公司新思科技投资20亿美元,以414.79美元每股价格购买股份,双方将展开多年合作。此次投资旨在将英伟达的AI硬件和计算能力整合到新思科技的电子设计自动化软件中,帮助其平台从CPU计算向GPU转型,加速芯片设计流程。该交易增强了英伟达对广泛使用的设计工具的影响力。
联想第二财季营收204.5亿美元,同比增长14.6%。AI相关收入占总营收30%,达61.4亿美元,较去年同期翻倍增长。然而基础设施解决方案集团(ISG)尽管收入增长23.7%至40.9亿美元,仍亏损3200万美元。云服务商业务虽增长21%但利润微薄,企业市场表现更佳。十年来ISG累计销售超840亿美元却总计亏损19.5亿美元,反映出AI和HPC市场高需求但低盈利的困境。
亚马逊云科技宣布推出Amazon EKS Capabilities,这是一套完全托管的Kubernetes原生工具套件,将流行的开源工具直接集成到EKS控制平面中。该服务旨在降低企业平台团队的运营复杂性,提升开发者生产力。AWS容器工程总监表示,开发者70%的时间用于管理基础设施,EKS Capabilities将改变这一现状。服务包括Argo CD、AWS Controllers for Kubernetes和Kubernetes Resource Orchestrator三个组件,帮助客户管理可扩展的标准化Kubernetes平台。
HPE正在升级其私有云AI堆栈,集成英伟达技术并准备在法国建立AI工厂实验室供客户测试工作负载。最新的RTX PRO 6000 Blackwell服务器版GPU将在所有AI私有云平台上可用,同时支持GPU分片和虚拟化以优化利用率。HPE还推出数据中心运维代理简化管理,并整合Juniper网络技术。存储方面推出Alletra Storage MP X10000数据智能节点,内置AI数据预处理能力。
AWS宣布Amazon Connect获得重大升级,新增29项智能AI功能,旨在提供超个性化的自主客户体验。该平台年化收入已突破10亿美元,AWS希望借助智能AI从被动支持转向主动参与,用推理型自主系统取代脚本化聊天机器人。新功能包括可解析多意图查询、跨交互保持记忆、实时检索企业数据的AI代理,以及Nova Sonic语音技术支持30多种语言。AWS强调人机协作模式,通过全面的可观测性套件确保AI透明度和可信度。
Akamai Technologies宣布收购基于WebAssembly的函数即服务平台创业公司Fermyon。该平台能让开发者用多种编程语言编写工作负载,并自动化配置任务。Fermyon平台可在52毫秒内重启应用程序,显著降低基础设施成本。收购后,Akamai将深度整合Fermyon平台与其应用性能优化和网络安全工具,并继续支持其开源项目。此举有助Akamai与竞争对手Cloudflare在内容分发网络市场展开更有效竞争。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。
清华大学联合腾讯等机构开发出Imaginarium系统,能够仅凭文字描述在4分钟内生成专业级3D场景布局。该系统通过视觉引导方法,先生成2D设计图再转换为3D场景,包含2037个高质量3D模型资产库。测试显示其生成场景质量显著优于现有方法,主要家具摆放准确率超90%,可广泛应用于游戏开发、建筑设计和影视制作等领域。