字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。
复旦大学等机构联合推出全球首个多轮视频对话评测基准MT-Video-Bench,系统评估了20个先进AI模型在视频理解和对话互动中的真实表现。研究发现即使最强AI模型准确率也仅68%,在跨场景推理和主动互动方面存在明显短板,为AI视频理解技术发展指明改进方向。
香港大学团队开发的VideoSSM突破了AI视频生成的时长瓶颈,通过创新的双重记忆架构,能生成一小时长度且保持完美一致性的视频。该系统模仿人脑记忆机制,结合局部和全局记忆模块,在长视频生成测试中取得领先成绩,为视频创作普及化奠定了技术基础。
MIT和魏茨曼研究所联合开发的BrainExplore系统首次实现了对人脑视觉皮层的大规模自动化分析。该研究使用AI技术分析73000张图像对应的大脑扫描数据,发现大脑视觉功能的精细化程度远超预期,能够区分"冲浪"、"踢足球"等具体运动项目,为脑机接口技术和神经系统疾病诊断奠定基础。
香港中文大学研究团队发现,当前视频AI系统的冗长"链式思维推理"既低效又不准确,提出了基于简洁推理和视觉压缩的新方法。该方法通过直接训练避免模仿人类思考过程,在九项视频理解测试中全面超越传统方法,推理速度提升10倍,为视频AI发展指明新方向。
Google和MIT联合研究团队通过180个严格控制的实验配置,首次科学量化了AI智能体协作的效果规律。研究发现协作效果完全取决于任务特性:金融分析等可分解任务中多智能体能提升80%性能,但游戏规划等序列任务中反而降低39-70%表现。团队建立了预测模型,准确率达87%,为AI系统设计从经验猜测转向科学计算提供了重要工具。
迪士尼与OpenAI达成三年合作协议,授权200多个迪士尼、皮克斯、漫威和星球大战角色用于Sora视频和ChatGPT图像生成。迪士尼将向OpenAI投资10亿美元股权,成为其主要客户。协议明确不包含真人演员肖像和声音授权,仅限动画版本角色。同时迪士尼向谷歌发出停止侵权通知,要求停止基于其IP生成内容。这标志着娱乐巨头积极拥抱AI技术变革。
OpenAI推出GPT-5.2模型,专为专业工作场景优化。新模型在创建电子表格、制作演示文稿、编写代码等方面表现更佳。GPT-5.2 Thinking版本在多项基准测试中超越前代产品,数学问题获得满分,事实性回答错误率降低30%。该发布被视为OpenAI对谷歌Gemini 3 Pro的"红色警报"回应,旨在重新夺回AI领域领先地位。
Oracle发布第二财季收入161亿美元,同比增长13%,连续三季度实现双位数增长。云收入达80亿美元,增长34%,占总收入50%。CEO表示通过加速容量交付来改善AI工作负载毛利率,目标在30-40%。公司采用三种数据中心融资模式:客户自带硬件、租用容量和Oracle预付硬件费用。执行董事长介绍了AI数据平台,能够统一企业数据并支持大型语言模型进行多步推理。
为解决不同厂商AI代理间的协同工作问题,Google主导的A2A协议和由OpenAI、Anthropic等联合成立的AAIF基金会成为两大竞争标准。A2A协议基于HTTP等现有协议,定义了客户端与远程代理的任务分配机制;AAIF则整合了OpenAI的AGENTS.md格式和Anthropic的MCP协议。两个标准都获得了众多科技巨头支持,反映出AI代理生态系统对多层次互操作标准的迫切需求。
研究表明,人们说话速度是打字速度的2.5倍,这个差距代表着大量时间浪费。现代AI语音转文字工具如Wispr Flow能够将口语思路转换为格式化文本,用户可在任何应用中用语音替代打字。这项技术让创业者随时随地记录灵感,摆脱键盘束缚,同时改善工作姿势。AI还能自动整理语音内容,将零散话语转为专业文档,大幅提升工作效率。
甲骨文公司股价周四暴跌16%,创2001年以来最大跌幅,市值蒸发约1020亿美元。公司第二财季资本支出达到120亿美元,比上一季度85亿美元大幅增长,远超分析师预期的82.5亿美元。虽然云业务收入增长34%至79.8亿美元,但仍略低于预期。公司预计2026财年资本支出将达到500亿美元,比此前预测增加150亿美元。投资者担心大规模AI基础设施投入转化为收入的速度不及预期。
Oracle正大力投资云计算基础设施,主要服务于OpenAI等AI模型公司。尽管华尔街担心Oracle过度依赖OpenAI(其5233亿美元收入积压中有3000亿来自OpenAI),但Oracle管理层强调公司将保持投资级债务评级,并只在满足盈利要求时扩展业务。Oracle计划通过AI数据平台整合企业私有数据,让AI模型能够跨数据库和应用进行推理,这将成为比公共数据训练更大的商业机会。
AI视频生成公司Runway推出首个世界模型GWM-1,通过逐帧预测创建具备物理理解能力的仿真环境。该公司还发布了三个专门版本:GWM-Worlds用于交互式场景创建,GWM-Robotics利用合成数据训练机器人,GWM-Avatars模拟真实人类行为。同时,Runway更新了Gen 4.5模型,新增原生音频和长视频生成功能,支持一分钟视频制作及多镜头叙事。
西湖大学等机构联合发布TwinFlow技术,通过创新的"双轨道"设计实现AI图像生成的革命性突破。该技术让原本需要40-100步的图像生成过程缩短到仅需1步,速度提升100倍且质量几乎无损。TwinFlow采用自我对抗机制,无需额外辅助模型,成功应用于200亿参数超大模型,在GenEval等标准测试中表现卓越,为实时AI图像生成应用开辟了广阔前景。
中山大学等机构联合开发的RealGen框架成功解决了AI生成图像的"塑料感"问题。该技术通过"探测器奖励"机制,让AI在躲避图像检测器识别的过程中学会制作更逼真照片。实验显示,RealGen在逼真度评测中大幅领先现有模型,在与真实照片对比中胜率接近50%,为AI图像生成技术带来重要突破。
复旦大学团队突破性研究ReVSeg将AI视频理解从简单的物体识别提升到真正的推理分析。该系统采用三步骤分解推理链条:语义理解、时间定位、空间定位,结合强化学习优化推理过程。在多个标准测试中性能提升超过11个百分点,推理过程透明可解释,为自动驾驶、安防监控、医疗诊断等领域开辟新的应用可能。