最新文章
多模态智能时代,AI模型遭遇“空间推理危机“——苏黎世联邦理工学院的MARBLE基准测试挑战来袭!
2025-07-03

多模态智能时代,AI模型遭遇“空间推理危机“——苏黎世联邦理工学院的MARBLE基准测试挑战来袭!

当AI遇到空间推理难题:最新研究揭示GPT-4等顶尖模型在传送门解谜和立体拼图中集体"挂科",复杂智能远比我们想象的更难实现。

研究机构能否教会AI自主扩展科学研究?波士顿大学团队揭示代码智能体的“研究盲区“

研究机构能否教会AI自主扩展科学研究?波士顿大学团队揭示代码智能体的“研究盲区“

这项研究首次系统评估了AI代码智能体在科学研究扩展方面的能力。研究团队设计了包含12个真实研究任务的REXBENCH基准,测试了九个先进AI智能体的表现。结果显示,即使最优秀的智能体成功率也仅为25%,远低于实用化要求,揭示了当前AI在处理复杂科学推理任务时的显著局限性。

从算力高地到电力运营,中国方案再下一城

从算力高地到电力运营,中国方案再下一城

2025施耐德电气智算峰会上,全新EcoStruxure(TM) Energy Operation电力综合运营系统正式亮相,定位场站级智慧能源管理中枢,集技术领先性与本土适配性于一体。

俄罗斯研究团队推出光流估计新方法:让超高清视频分析更省内存、更精准

俄罗斯研究团队推出光流估计新方法:让超高清视频分析更省内存、更精准

俄罗斯莫斯科国立大学研究团队开发出MEMFOF光流估计新方法,在保持顶尖精度的同时将1080p视频分析的GPU内存消耗从8GB降至2GB,实现约4倍内存节省。该方法通过三帧策略、相关性体积优化和高分辨率训练在多个国际基准测试中取得第一名成绩,为高清视频分析技术的普及奠定基础。

智能体将调用企业API:Atlassian等巨头的前瞻布局

智能体将调用企业API:Atlassian等巨头的前瞻布局

Atlassian、Intuit和AWS三大企业巨头正在为智能代理时代做准备,重新思考软件构建方式。当前企业API为人类使用而设计,未来API将成为多模型原生接口。Intuit在QuickBooks中应用自动发票生成,使企业平均提前5天收款;AWS通过AI辅助迁移服务显著提升效率;Atlassian推出内部员工入职代理和客户代理,节省大量时间成本。专家强调需要建立强大的数据架构和信任机制。

毫米级相机也能拍出大片?这家中国团队用AI让超微镜头媲美专业设备

毫米级相机也能拍出大片?这家中国团队用AI让超微镜头媲美专业设备

上海交通大学团队开发出毫米级超微相机系统,结合超薄光学镜头和AI图像修复技术,实现了前所未有的紧凑成像能力。该系统通过三路径扩散模型和空间感知修复算法,成功解决了超表面镜头成像质量差的问题,让比芝麻还小的相机也能拍出清晰照片,为未来的植入式医疗设备和微型成像系统开辟了新道路。

使用ChatGPT时大脑会发生什么?科学家进行了研究

使用ChatGPT时大脑会发生什么?科学家进行了研究

MIT研究发现,使用生成式AI完成任务时,大脑运作方式与单纯依靠自身思考存在显著差异。研究显示,使用ChatGPT等工具的用户记忆力更差,神经连接活动减少,对所写内容的回忆能力明显下降。虽然AI工具能提高效率,但可能导致用户缺乏对知识的深度理解和掌控感。研究强调需要更多科学数据来了解AI使用对人类认知的长期影响。

Unbabel团队突破性成果:如何让AI既能精通翻译又不失聊天本色?

Unbabel团队突破性成果:如何让AI既能精通翻译又不失聊天本色?

Unbabel团队开发的TOWER+模型系列实现了翻译专业性与通用AI能力的完美平衡。通过创新的四步训练方法,即使2B参数的小模型也能在翻译质量上匹敌70B大模型,同时具备出色的对话和指令跟随能力。研究还创建了IF-MT基准来评估复杂翻译场景下的综合能力,为AI模型的专业化发展提供了重要参考。

花岗岩演示展现AI数据中心绿色挖掘能力

花岗岩演示展现AI数据中心绿色挖掘能力

Earthgrid公司展示了突破性的等离子体挖掘系统,使用双2500千瓦等离子炬在花岗岩中开凿隧道。该技术替代传统柴油设备和爆破方式,显著降低环境影响。这项绿色挖掘工艺可高效铺设地下电力线和光纤网络,减少野火风险,为AI数据中心等高耗能基础设施提供可持续的能源解决方案,推动绿色计算发展。

当AI开始学会“说服“:莫斯科科学家让机器人学会了更有说服力的视觉判断

当AI开始学会“说服“:莫斯科科学家让机器人学会了更有说服力的视觉判断

莫斯科科学家开发出"听众机制"训练方法,解决AI视觉偏好判断中推理不一致问题。通过让两个AI模型相互"对话"验证推理过程,新方法在ImageReward基准上达到67.4%准确率,并在现代图像数据集上显著提升泛化能力,为开发更可靠可解释的AI系统提供新思路。

OpenAI与谷歌合作测试TPU芯片但暂无大规模部署计划

OpenAI与谷歌合作测试TPU芯片但暂无大规模部署计划

OpenAI澄清虽在测试谷歌TPU芯片,但暂无大规模部署计划。该公司正摆脱对微软基础设施的依赖,寻求包括甲骨文、CoreWeave等多家算力供应商合作。OpenAI一直在硬件栈多元化方面努力,从英伟达DGX系统起步,现已使用微软Maia加速器、AMD Instinct MI300系列等多种硬件。公司还在开发自研AI芯片。分析认为,OpenAI可能因软件栈主要针对GPU优化,适配TPU架构需要额外时间和资源投入。

AI被最新“空间推理“题目难倒了!EPFL和ETH科学家打造地狱级多模态测试,所有顶级模型全军覆没

AI被最新“空间推理“题目难倒了!EPFL和ETH科学家打造地狱级多模态测试,所有顶级模型全军覆没

瑞士EPFL和ETH研究团队发布MARBLE基准测试,专门评估AI的复杂空间推理能力。测试包含Portal游戏启发的M-Portal和3D拼图M-Cube两大任务,要求AI进行多步骤规划和3D空间组装。结果显示包括GPT-4o在内的12个顶级多模态AI模型几乎全部失败,在最难任务上准确率接近0%,暴露了当前AI在真正智能推理方面的重大缺陷。