最新文章第4页

2025-12-12

OpenAI发布企业AI应用报告：从实验到生产,全球百万企业的AI转型之路

2025年底,OpenAI发布了一份名为《企业AI现状》的年度报告,这份报告汇集了超过100万家企业客户的使用数据,以及近9000名员工的调研反馈。

人工智能

图像识别

新型算法

2025-12-12

字节跳动发布GAR：让AI能像人类一样精准理解图像任何区域的突破性技术

字节跳动等机构联合发布GAR技术，让AI能同时理解图像的全局和局部信息，实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法，在保持全局视野的同时提取精确细节，在多项测试中表现出色，甚至在某些指标上超越了体积更大的模型，为AI视觉理解能力带来重要突破。

Inclusion AI推出万亿参数思维模型Ring-1T：首个开源的超大规模推理引擎如何重塑AI思考边界

人工智能

强化学习

开源模型

2025-12-12

Inclusion AI推出万亿参数思维模型Ring-1T：首个开源的超大规模推理引擎如何重塑AI思考边界

Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T，通过IcePop、C3PO++和ASystem三项核心技术突破，解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分，IMO-2025达到银牌水平，CodeForces获得2088分，展现出卓越的数学推理和编程能力，为AI推理能力发展树立了新的里程碑。

视频理解

指令遵循

多模态评测

2025-12-12

南京大学团队打造视频AI新标杆：让机器真正"听懂"复杂指令描述视频

南京大学研究团队开发了IF-VidCap，首个专门评估视频AI指令遵循能力的测试基准。该系统包含1400个测试样本和27种约束类型，能全面评估AI是否能按照复杂指令生成视频描述。研究发现当前最强开源模型已达到闭源模型85%水平，但所有模型在格式控制上都明显优于内容控制。团队还训练出改进模型IF-Captioner-Qwen，为未来AI助手的精确指令执行能力奠定了基础。

人工智能

视频理解

评测基准

2025-12-12

复旦大学团队推出首个多轮视频对话评测基准，AI视频理解能力大起底

复旦大学等机构联合推出全球首个多轮视频对话评测基准MT-Video-Bench，系统评估了20个先进AI模型在视频理解和对话互动中的真实表现。研究发现即使最强AI模型准确率也仅68%，在跨场景推理和主动互动方面存在明显短板，为AI视频理解技术发展指明改进方向。

视频生成

稀疏注意力

端到端长视频建模

2025-12-12

长视频生成不再是空中楼阁：中科大团队揭秘一分钟高清视频的生成秘诀

中科大团队提出MoGA混合群组注意力机制，首次实现端到端生成一分钟长度多镜头高清视频。该方法通过智能分组策略将相关内容聚集处理，在保持71.25%稀疏度的同时实现1.7倍计算加速，生成的视频具有出色的跨镜头一致性和时间连贯性，为长视频生成技术带来重大突破。

人工智能

视频生成

混合记忆架构

2025-12-12

香港大学团队突破视频生成瓶颈：一小时超长视频也能保持完美连贯性

香港大学团队开发的VideoSSM突破了AI视频生成的时长瓶颈，通过创新的双重记忆架构，能生成一小时长度且保持完美一致性的视频。该系统模仿人脑记忆机制，结合局部和全局记忆模块，在长视频生成测试中取得领先成绩，为视频创作普及化奠定了技术基础。

语音合成

服务导向架构

轻量化算法

2025-12-12

谷歌语音合成新突破：让AI说话像真人一样自然流畅

伊朗谢里夫理工大学研究团队开发了一种新的语音合成技术，通过服务导向架构解决了机器发音准确性和实时性难以兼得的问题。该技术将复杂的语言处理模块独立运行，避免拖累核心引擎速度，在波斯语测试中发音准确率显著提升，为语音助手和屏幕阅读器等应用带来更自然的语音体验。

知识编辑

强化学习

神经网络优化

2025-12-12

上海创新学院EtCon框架：让AI大模型真正"记住"新知识的革命性方法

上海创新学院等机构联合提出EtCon框架，首次解决了AI大模型知识编辑中"记住但不会用"的关键问题。该方法采用编辑-整合两阶段设计：TPSFT精确注入新知识，GRPO训练实际应用能力。实验显示可靠性和泛化性提升35%-50%，为AI持续学习提供突破性解决方案，使AI助手能真正学会并灵活运用新知识。

神经科学

人工智能

大脑解码

2025-12-12

人脑如何看世界？MIT和魏茨曼研究所首次用AI大规模解密视觉皮层的秘密语言

MIT和魏茨曼研究所联合开发的BrainExplore系统首次实现了对人脑视觉皮层的大规模自动化分析。该研究使用AI技术分析73000张图像对应的大脑扫描数据，发现大脑视觉功能的精细化程度远超预期，能够区分"冲浪"、"踢足球"等具体运动项目，为脑机接口技术和神经系统疾病诊断奠定基础。

视频生成

概念组合

多模态融合

2025-12-12

香港科大团队推出BiCo：让AI像艺术家一样自由组合图片和视频中的任意元素

香港科技大学研究团队推出BiCo系统，实现了前所未有的视觉概念组合能力。该系统能够从图片和视频中智能提取各种概念元素，包括物体、动作、风格等，并根据用户的文字描述将这些概念重新组合成高质量的新视频。通过分层绑定器结构、多样化吸收机制和时序解耦策略三大核心技术，BiCo在概念一致性、提示准确性和动作质量方面显著超越现有方法，为视觉内容创作开启了全新可能。

首个红外图像理解评测基准IF-Bench：中科院自动化研究所团队破解多模态大模型的"夜视"难题

多模态理解

图像识别

新型算法

2025-12-12

首个红外图像理解评测基准IF-Bench：中科院自动化研究所团队破解多模态大模型的"夜视"难题

中科院自动化研究所团队构建了首个红外图像理解评测基准IF-Bench，系统评估了40多个主流AI模型的红外图像理解能力，发现即使最先进的模型也存在显著短板。研究提出了生成式视觉提示方法GenViP，通过图像翻译技术让AI同时处理红外和彩色图像，无需重新训练就能显著提升性能。这项突破为自动驾驶、智能监控、医疗诊断等应用的全天候智能感知奠定了重要基础。

深度学习

比特币挖矿

投资决策预测

2025-12-12

新加坡科技设计大学团队开发AI"矿工智囊"：精准预测比特币挖矿设备何时买最赚钱

新加坡科技设计大学团队开发了MineROI-Net，这是首个专门预测比特币挖矿设备购买时机的AI系统。该系统通过分析价格、难度、电费等因素，将投资结果分为亏损、保本、盈利三类。测试显示准确率达83.7%，在识别亏损风险和盈利机会方面表现尤为出色，为解决挖矿行业的投资时机难题提供了数据驱动的解决方案。

视频生成

相机控制

重力感知

2025-12-12

让AI相机也懂重力：Adobe实验室如何让视频生成告别"头重脚轻"

Adobe与拉瓦尔大学联合开发的GimbalDiffusion系统首次为AI视频生成引入重力感知能力，解决了传统方法无法精确控制绝对相机角度的问题。通过使用360度全景视频训练和零俯仰调节技术，该系统实现了前所未有的相机控制精度，为创意视频制作开辟了新可能性。

人工智能

视频理解

简洁推理

2025-12-12

香港中文大学新研究：AI视频理解为什么不需要冗长"思考"，简洁推理反而更高效？

香港中文大学研究团队发现，当前视频AI系统的冗长"链式思维推理"既低效又不准确，提出了基于简洁推理和视觉压缩的新方法。该方法通过直接训练避免模仿人类思考过程，在九项视频理解测试中全面超越传统方法，推理速度提升10倍，为视频AI发展指明新方向。

人工智能

多智能体系统

预测模型

2025-12-12

史上最严格的AI合作模式研究：Google和MIT团队破解多智能体系统何时有效的终极密码

Google和MIT联合研究团队通过180个严格控制的实验配置，首次科学量化了AI智能体协作的效果规律。研究发现协作效果完全取决于任务特性：金融分析等可分解任务中多智能体能提升80%性能，但游戏规划等序列任务中反而降低39-70%表现。团队建立了预测模型，准确率达87%，为AI系统设计从经验猜测转向科学计算提供了重要工具。

西云数据

2025-12-12

面向十五五：国内云基础设施的变迁与重塑

作为“东数西算”八大枢纽之一，宁夏在全国算力布局中的位置不断提升，承担着承接东部数据、提供绿色算力和支撑全国算力网络协同的关键角色。随着区域基础设施不断完善，宁夏逐渐成为观察国内云基础设施建设趋势与行业需求变化的一个窗口，其中，西云数据在宁夏的长期运营，正是这一趋势的典型实践之一。

SUSE

2025-12-12

重塑亚太科技格局的五大力量：从数字主权到 AI 赋能的基础设施

到2026年，亚太地区的企业将面临一个抉择：要么继续沉溺于虚假的安全感中，承担被彻底锁定的风险；要么拥抱科技领域的根本性变革，为未来的业务发展保驾护航。

人工智能

视频生成

版权授权

2025-12-12

迪士尼授权超200个角色给OpenAI，开启生成式AI新合作

迪士尼与OpenAI达成三年合作协议，授权200多个迪士尼、皮克斯、漫威和星球大战角色用于Sora视频和ChatGPT图像生成。迪士尼将向OpenAI投资10亿美元股权，成为其主要客户。协议明确不包含真人演员肖像和声音授权，仅限动画版本角色。同时迪士尼向谷歌发出停止侵权通知，要求停止基于其IP生成内容。这标志着娱乐巨头积极拥抱AI技术变革。

人工智能

大语言模型

模型优化

2025-12-12

OpenAI发布GPT-5.2挑战谷歌和Anthropic

OpenAI推出GPT-5.2模型，专为专业工作场景优化。新模型在创建电子表格、制作演示文稿、编写代码等方面表现更佳。GPT-5.2 Thinking版本在多项基准测试中超越前代产品，数学问题获得满分，事实性回答错误率降低30%。该发布被视为OpenAI对谷歌Gemini 3 Pro的"红色警报"回应，旨在重新夺回AI领域领先地位。

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: