清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
R语言在Tiobe 12月编程语言流行度指数中重返前十,排名第10位,占比1.96%。作为统计计算专用语言,R语言凭借在统计分析和大规模数据可视化方面的优势重新获得关注。尽管传统软件工程师对其语法和扩展性存在质疑,但R语言在大学和研究驱动行业中仍表现出色,在快速实验、统计建模和探索性数据分析领域具有独特优势。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
Java开发工具包(JDK) 26计划于2026年3月17日发布,目前已进入初始缺陷修复阶段,功能集已冻结。该版本包含10项主要特性:模式匹配中的原始类型第四次预览、提前对象缓存、Vector API第十一次孵化、延迟常量和PEM加密对象编码第二次预览、结构化并发第六次预览、深度反射变更final字段的警告、G1垃圾收集器同步优化、HTTP/3客户端API支持以及移除Java Applet API等功能。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。
AWS在2025年re:Invent大会上展现出不寻常的防御姿态,面临证明其仍能引领企业AI议程的压力。随着微软和谷歌通过集成AI堆栈加强对CIO的影响力,AWS推出了新芯片、模型和平台增强功能。分析师认为AWS尚未成功构建统一叙述。Nova Forge是AWS最大的尝试,旨在解决其战略弱点:缺乏将数据、分析、AI和代理整合为单一路径的统一框架。但分析师指出,企业采用仍需大量工程投入,AWS仍是需要组装的零件集合。
上海交大GAIR实验室开发的LiveTalk系统实现了重大技术突破,将AI视频生成时间从传统的83秒压缩至0.33秒,实现超250倍速度提升。该系统通过改进的在线策略蒸馏方法,能够实时生成高质量的多模态交互视频,支持文字、图像和音频的同步处理,为实时人机视频交互开辟了新的可能性。
Linux基金会宣布成立代理AI基金会(AAIF),旨在为代理AI的透明协作发展提供中立开放的平台。该基金会由Anthropic的模型上下文协议、Block的goose AI编程代理和OpenAI的AGENTS.md开放格式等项目支持。AWS、谷歌、微软、IBM等科技巨头成为创始成员。基金会将建立共享的工具生态系统和社区驱动创新标准。
普林斯顿大学研究团队提出Web世界模型(WWM),一种融合传统网页框架可靠性与AI生成内容无限性的新架构。该系统将世界状态分为确定性的物理层(代码处理逻辑)和随机性的想象层(AI生成内容),通过类型化接口确保两者协调工作。研究团队开发了包括无限旅行地图集、银河探索、AI卡牌游戏等多个应用,证明了WWM在创造既稳定又富有创意的交互环境方面的巨大潜力。
Wiz安全团队研究发现,攻击者正利用泄露的GitHub个人访问令牌(PAT)获取GitHub Action机密信息,进而渗透企业云环境。研究显示73%使用私有GitHub仓库的企业在其中存储云服务提供商凭据。攻击者可通过PAT冒充开发者身份,搜索工作流中的密钥信息,进而访问AWS、Azure等云服务,执行恶意代码、窃取数据或建立持久化访问机制。专家建议企业应将PAT视为特权凭据管理,设置合理过期时间,遵循最小权限原则,并将云密钥迁移出GitHub工作流。
新加坡管理大学等国际团队发布Video-BrowseComp基准测试,首次揭示AI模型在视频理解方面的重大缺陷。研究发现即使先进如GPT-5.1的模型在需要真正理解视频内容的任务中准确率仅15.24%,暴露出AI严重依赖文字信息而无法真正"观看"视频的问题。