最新文章
浙江大学StaMo:从静态图片中"变魔术"般地学会机器人动作的革命性方法

浙江大学StaMo:从静态图片中"变魔术"般地学会机器人动作的革命性方法

浙江大学研究团队开发的StaMo系统突破了机器人动作学习的传统范式,仅通过观察静态图片就能让机器人掌握复杂运动技能。该方法将复杂场景压缩成两个数字令牌,通过令牌差异自然生成运动轨迹,在LIBERO测试中性能提升14.3%,真实世界实验成功率提高30%,为机器人技术实用化奠定重要基础。

香港科技大学:AI看图太费内存?简单压缩图片反而比复杂算法更管用!

香港科技大学:AI看图太费内存?简单压缩图片反而比复杂算法更管用!

香港科技大学研究团队发现现有AI视觉压缩评估存在重大缺陷:简单图片缩小竟比复杂算法效果更好。深入分析后发现问题在于基准测试包含太多"简单题",无法体现先进算法优势。团队据此开发VTC-Bench评估框架,通过筛选困难样本消除数据噪声,让真正技术差异得以显现,为AI视觉压缩领域提供更公平准确的评估标准。

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

这是一篇关于人工智能视觉理解技术突破的研究报告。南洋理工大学等机构开发的PaDT系统,让AI能像人类一样直接"指点"图片中的物体位置,而不是输出复杂的数字坐标。该技术通过视觉参考令牌统一处理多种视觉任务,在物体识别准确率上提升近三倍,有望在教育、医疗、智能驾驶等领域带来革命性应用。

让AI学会"边看边判断":韩国GIST团队突破视频实时事件分割技术

让AI学会"边看边判断":韩国GIST团队突破视频实时事件分割技术

这项由韩国科学技术院团队完成的研究首次实现了真正意义上的实时视频事件分割技术。他们开发的ESTimator框架基于人类认知机制,通过预测未来帧内容并监测预测误差来识别事件边界,成功解决了传统方法无法处理流媒体数据的局限性,为智能视频分析开辟了新方向。

比谷歌翻译还准确?加州大学洛杉矶分校团队如何让40种非洲语言重获数字生命

比谷歌翻译还准确?加州大学洛杉矶分校团队如何让40种非洲语言重获数字生命

加州大学洛杉矶分校等十所院校联合研究团队开发出突破性的非洲语言处理技术,构建了涵盖40种语言、190亿文本标记的最大非洲多语言数据集。通过创新的All Voices众包平台和精细化模型训练,在31种语言测试中平均提升23.69分,部分语言翻译质量超越谷歌翻译,为88%被忽视的非洲语言带来数字化希望,并培养15名本土专家建立可持续发展基础。

测试智算性能!新一期国际排行榜AIPerf发布
2025-11-10

测试智算性能!新一期国际排行榜AIPerf发布

在11月8日在京举行的第七届中国超级算力大会(ChinaSC 2025)上,由中国科学院计算技术研究所张云泉研究员、清华大学陈文光教授、美国阿贡国家实验室Pavan Balaji研究员和瑞士苏黎世实验室Torsten Hoefler教授共同发起的世界人工智能算力性能排行榜——AIPerf500发布。

ChinaSC 2025:产学研聚力,解锁智能算力经济新未来!
2025-11-10

ChinaSC 2025:产学研聚力,解锁智能算力经济新未来!

2025年11月8日,以“智算力 大模型 新经济”为主题的ChinaSC 2025第七届中国超级算力大会暨中国智能计算产业联盟理事会年会在北京盛大召开。

联想再登中国HPC TOP100第一,多元算力加速超智融合新进程  斩获多奖!联想多元算力布局引领产业新征程
2025-11-10

联想再登中国HPC TOP100第一,多元算力加速超智融合新进程 斩获多奖!联想多元算力布局引领产业新征程

第七届中国超级算力大会(ChinaSC2025)重磅发布了2025中国高性能计算机性能TOP100排行榜,联想以43套的亮眼成绩再度斩获年度数量总份额冠军!

KAIST AI团队揭秘:让AI视频生成真正理解"谁对谁做了什么"的关键技术

KAIST AI团队揭秘:让AI视频生成真正理解"谁对谁做了什么"的关键技术

KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。

乔治亚理工学院联手微软:让AI训练效率暴增21%的神奇新方法

乔治亚理工学院联手微软:让AI训练效率暴增21%的神奇新方法

乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。

DiDi联手香港科大首创自动旅行规划AI:让机器成为你的专属旅行助手

DiDi联手香港科大首创自动旅行规划AI:让机器成为你的专属旅行助手

香港科技大学和滴滴出行联合推出DeepTravel,首个能够自主学习和思考的AI旅行规划系统。通过创新的强化学习方法,该技术让AI像人类顾问一样制定旅行方案,并能从失败中汲取经验持续改进。测试显示其表现超越OpenAI等先进AI模型,已在滴滴企业版投入实用。

ByteDance的Heptapod:让AI像人类一样"看懂"整张图片的革命性突破

ByteDance的Heptapod:让AI像人类一样"看懂"整张图片的革命性突破

ByteDance团队提出Heptapod框架,通过"二维分布预测"让AI像人类一样整体理解图像,摒弃了传统方法对外部语义辅助的依赖。该方法在每步预测整个2D空间的内容分布,迫使AI发展全局理解能力。在ImageNet测试中,Heptapod-H达到2.70的FID分数,显著优于传统因果自回归模型,为视觉AI返回端到端学习原理提供了成功范例。

上海AI实验室推出Lumina-DiMOO:一个能同时理解和生成图像的全能AI模型

上海AI实验室推出Lumina-DiMOO:一个能同时理解和生成图像的全能AI模型

这项由上海AI实验室等多家机构联合完成的研究推出了名为Lumina-DiMOO的统一多模态AI模型,它采用全新的离散扩散建模技术,同时具备图像理解和生成能力。该模型在生成速度上比传统方法快32倍,支持任意分辨率处理,并具备独特的交互式修饰功能,在多个权威基准测试中均取得领先成绩,为多模态AI发展开辟了新方向。

清华大学团队革命性突破:让AI大模型抛弃文字"聊天",直接进行"心灵感应"

清华大学团队革命性突破:让AI大模型抛弃文字"聊天",直接进行"心灵感应"

清华大学等机构联合提出Cache-to-Cache(C2C)方法,让AI大模型抛弃传统文字交流,直接传递内部理解结构。该方法通过"缓存融合器"实现模型间的深层语义交流,相比传统方式准确率提升3-5%,速度提升2倍。实验证明C2C在多种任务中表现优异,为AI协作开辟了新路径,有望让未来AI系统更智能高效。

西湖大学团队突破AI图像生成模型压缩难题:让8B参数的Stable Diffusion瘦身70%仍能生成高质量图片

西湖大学团队突破AI图像生成模型压缩难题:让8B参数的Stable Diffusion瘦身70%仍能生成高质量图片

西湖大学研究团队提出OBS-Diff框架,专门解决大型AI图像生成模型的压缩难题。该方法通过时间感知的海森矩阵构建和模块包批处理策略,能在保持高图像质量的同时实现高达70%的模型压缩。实验显示,即使在极高压缩比下,OBS-Diff依然能生成清晰连贯的图像,显著优于传统剪枝方法,有望大幅降低AI图像生成技术的硬件门槛。

Gartner:趋势不是终点,而是通往下一个时代的坐标
2025-11-10

Gartner:趋势不是终点,而是通往下一个时代的坐标

面对增长放缓与技术跃迁的双重拐点,几乎所有企业都身处同一个十字路口:外部环境的不确定性、业务协调与财务压力、技术与数据管理的复杂性、风险与合规挑战、以及持续紧缺的人才与组织能力。

异构CPU时代来临:多架构协同成为计算新趋势

异构CPU时代来临:多架构协同成为计算新趋势

CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。

Vast Data与CoreWeave的11.7亿美元合作协议释放重要信号

Vast Data与CoreWeave的11.7亿美元合作协议释放重要信号

Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。

IBM专攻推理加速,打造企业AI基础设施护城河

IBM专攻推理加速,打造企业AI基础设施护城河

当OpenAI和谷歌等科技巨头追求更大模型时,IBM选择专注于企业AI的推理基础设施。通过与Anthropic和Groq的新合作,IBM将语言处理单元集成到watsonx平台,声称企业智能体AI系统运行速度比传统GPU快5倍且更具成本效益。IBM采用模块化混合策略,整合智能、推理和治理三个层面,为企业提供跨云环境的AI解决方案,避免生态系统锁定,专注于让AI在实际生产环境中更实用。

Google Gemini深度研究功能新增邮件和云盘数据访问能力

Google Gemini深度研究功能新增邮件和云盘数据访问能力

谷歌Gemini深度研究工具现已升级,可访问Gmail、Drive和Chat等应用获取数据来回答研究问题。该功能基于Gemini 2.5 Pro,采用多步骤流程进行深度分析。用户需授权后,系统可访问Google Workspace中的相关数据以提升研究效果。谷歌确认连接应用的信息不会用于改进AI模型,但会有人工审核员审查部分数据。专家对该功能评价不一,有人质疑其仅能产生"研究外观"而非真正研究。