香港科技大学团队发表重要研究,开发GIR-Bench测试基准评估统一多模态AI模型的推理与生成能力。研究发现即使最先进的AI模型在理解与生成之间也存在显著差距,无法有效将推理过程转化为准确的视觉生成,为AI行业发展提供重要警示。
随着AI技术不断发展,交通运输行业正迎来重大变革。MIT研究显示,AI将很快自动化价值650亿美元的交通工作,大幅提升运输效率。从陆地到海空,AI正在推动全方位的交通创新。斯坦福专家强调,AI将通过基础模型、合成数据和数字孪生等技术,实现从单一车辆自动化到整个交通网络优化的跨越式发展,同时解决可持续性、安全性和公平性等关键挑战。
Meta超级智能实验室联合麻省理工学院开发了SPG三明治策略梯度方法,专门解决扩散语言模型强化学习训练中的技术难题。该方法通过上下界策略为AI模型提供精确的奖惩反馈机制,在数学和逻辑推理任务上实现了显著性能提升,为AI写作助手的智能化发展提供了新的技术路径。
波兰研究团队开发ORCA数学基准测试,对五个主流大语言模型进行评估。结果显示ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的准确率均低于63%。测试涵盖生物化学、工程建筑、金融经济等七个领域的500道数学题目。研究发现模型主要在四舍五入和计算错误方面存在问题,表明自然语言推理进步并未直接转化为可靠的计算能力。
上海AI实验室联合多所知名高校推出的Vlaser模型,成功将机器人的视觉理解、语言处理和精确行动能力统一在单一架构中。该模型基于600万个高质量训练样本构建,在12项综合测试中全面领先同类产品,实际机器人操作成功率超过64%,为机器人智能从工具向伙伴的转变奠定了重要基础。
美国能源信息署预测,2026年批发电力价格将上涨8.5%至每兆瓦时51美元,主要由数据中心和加密货币挖矿需求驱动。尽管可再生能源发电比例将达到创纪录的26%,加上核电18%的贡献,无碳发电将占总量44%,但整体碳排放变化不大。AI数据中心的快速增长成为电力需求最大推动因素,谷歌宣布到2027年在德州增投400亿美元建设数据中心。
首尔国立大学研究团队通过深入分析大型视觉语言模型发现,AI产生视觉幻觉的根本原因在于视觉编码器中存在"不确定性"标记。他们创新性地使用对抗性攻击识别这些不确定标记,并通过智能屏蔽策略显著降低了物体幻觉率。该方法无需重新训练模型,与现有AI系统高度兼容,为构建更可靠的人工智能系统提供了实用解决方案。
GMI Cloud在台湾投资5亿美元建设AI工厂数据中心,将使用VAST Data存储系统为7000个Blackwell GPU提供数据支持。该项目与英伟达合作,GPU将配备NVLink、InfiniBand和Spectrum-X以太网网络,部署在96个机架中,每秒可处理约200万个令牌,功耗16兆瓦。VAST的EB级数据基础设施支持模型训练、推理和实时数据处理。
这项由港大、美团、港中大联合开展的研究提出了CodePlot-CoT系统,让AI通过生成绘图代码来进行数学视觉推理。该系统解决了现有AI无法有效处理需要画图辅助的数学题难题,在专门构建的Math-VR数据集上取得21%的性能提升,为AI数学推理开辟了新方向。
亚马逊云科技发布一套人工智能代理工具,旨在简化其专业服务团队的工作流程。该工具集以AWS Professional Services Delivery Agent为核心,能够将通常需要数月完成的任务压缩至几天内完成,同时降低项目成本。该代理可通过上传架构图启动项目,从会议记录和文档中提取需求,自动生成项目提案。此外,还包含基于AWS Transform的专门代理,用于自动化软件迁移工作,能够处理COBOL大型机程序、VMware工作负载和.NET应用程序的云端迁移。
这项研究提出了革命性的"环境调教"AI训练方法,通过让AI的练习环境变得更智能来提升学习效果。仅用400个样本就让基础模型成功率从7%提升至37%,超越多个商业模型。该方法包含四阶段渐进训练、智能环境反馈、细粒度奖励机制,解决了数据稀缺和泛化能力差的核心问题,为AI训练开辟全新范式。