人形机器人公司Figure AI宣布完成超过10亿美元的C轮融资,资金将用于扩大机器人生产、构建英伟达GPU基础设施以加速训练和仿真,并扩展人类工作生活数据收集。该公司目标是在未来四年内交付10万台人形机器人,其Figure 02机器人搭载Helix AI智能系统,能够理解未见过的物体并做出合理行动。英特尔、英伟达、LG等公司参与投资。
硅谷科技巨头多年来一直宣传AI智能体愿景,但现有技术仍然有限。强化学习环境被视为训练AI智能体的关键技术突破。这些环境模拟真实工作场景,让智能体学习复杂任务。顶级AI实验室正大量需求此类环境,催生了Mechanize、Prime Intellect等初创公司。数据标注巨头Scale AI、Surge也在转型。据报道,Anthropic考虑明年投资超10亿美元。尽管前景看好,但专家对强化学习环境的可扩展性存在分歧。
随着AI能力的爆发式增长,仿人机器人的灵活性进化备受关注。傅里叶推出的开源设计展现了机器人行走、奔跑和攀坡能力。尽管目前仿人机器人仅占商业制造销售的不足2%,但专家普遍认为仿人机器人时代即将到来。斯坦福专家讨论了零样本设计、运动复杂性和安全性等挑战。
Forrester发布2025年十大新兴技术报告,将生成式AI列为IT领导者近期需重点关注的技术。报告显示,短期技术在AI加速与安全需求间寻求平衡,生成式AI、TuringBots和物联网安全仍位列前十。代理AI和合成数据新入榜单,预计两年内可实现可观投资回报。中期技术包括代理AI、边缘智能和自动驾驶等,但面临现实复杂性挑战。量子计算虽不在短中期ROI展望中,但Forrester建议零风险容忍组织开始投资量子安全。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
英伟达与新兴云服务商CoreWeave签署协议,承诺在2032年前为其提供63亿美元GPU计算容量担保。作为CoreWeave 7%股东,英伟达此举旨在培养与AWS、微软和谷歌抗衡的合作伙伴。该协议平均每年担保9亿美元容量,相当于约9400个GPU的年租赁。这种合作模式反映了AI领域中云服务商、芯片厂商和AI模型开发商之间复杂的资本循环关系。
Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。
LTX-Video是由以色列Lightricks公司开发的革命性开源视频生成模型,能够在2秒内生成5秒高质量视频,实现了比实时播放更快的生成速度。该模型创新性地整合了视频压缩和生成过程,采用1:192的超高压缩比和共享去噪机制,在人类评估中表现显著优于同类模型。作为完全开源的项目,它为教育、营销、内容创作等多个领域提供了强大而accessible的视频生成能力。
苏州大学等机构联合发表的这项研究首次系统性梳理了AI测试时计算技术的发展全貌。研究揭示了AI正在经历从快速直觉反应向深度推理思考的重大转变,通过重复采样、自我纠错、树搜索等策略显著提升推理能力。这种"给AI更多思考时间"的技术革命不仅推动了数学、编程等领域的突破,更为通用人工智能的实现指明了方向。
中美研究团队提出专家自主选择的AI新架构,让AI专家根据内在激活强度自主选择处理任务,避免传统路由器分配的不匹配问题。在40亿参数模型验证中,新方法在多项任务上超越传统混合专家模型,实现更均衡的负载分配和更高的处理效率,为大规模AI系统的专业化分工提供了创新解决方案。
上海AI实验室团队提出BoostStep方法,通过步骤级情境学习显著提升大语言模型数学推理能力。该方法在AI解题过程中实时提供精准指导,而非传统的完整例题参考,在GPT-4o上实现4.6%性能提升,超越传统方法的1.2%。研究发现99.2%的数学错误源于单步推理失误,验证了细粒度指导的重要性。
清华大学研究团队通过MotionBench发现,当前最先进的AI视频理解模型在精细动作理解方面存在严重不足,准确率不足60%。他们提出的通过编码器融合技术TE Fusion有效改进了这一问题。这项研究揭示了视频AI理解的基础能力缺陷,为该领域发展指明了新方向。
香港中文大学团队首次将"链式思维推理"技术应用于AI绘画领域,教会AI像人类画家一样"边画边思考"。通过开发专门的PARM评估模型和多种训练策略,让AI绘画在复杂场景描述上提升24%,超越知名的Stable Diffusion 3模型15%。这项突破为AI创作工具带来更智能的"自我反思"能力。
清华大学联合多所知校发布的这项重磅研究全面分析了大语言模型推理能力发展现状,深入探讨了强化学习如何让AI学会思考。研究涵盖了从数据构建到模型训练、从测试时增强到开源项目的完整技术图景,特别分析了OpenAI o1系列的突破性进展,为AI推理能力的未来发展提供了宝贵指引。
微软亚洲研究院提出首个FP4量化训练框架,通过可微分梯度估计器和离群值处理技术,在保持模型性能的同时实现接近4倍的计算加速。该技术在130亿参数模型上验证有效,为降低大模型训练成本、促进AI技术普及提供了新路径。
这项由德州大学达拉斯分校主导的研究是首个全面梳理大语言模型在科学研究全生命周期应用的综合调研。研究团队系统分析了AI在假设发现、实验实施、论文写作和同行评议四个关键环节的作用,展现了从"AI副驾驶"到"全自动驾驶"的技术演进。研究发现AI不仅能提高研究效率,还能激发跨学科创新,但也面临技术局限、评估标准和伦理挑战。