罗格斯大学与Adobe联合研究发现AI智能体在执行30+步骤的复杂任务时会遭遇"探索-利用级联失效"——早期盲目探索导致错误决策传播至后续步骤,造成训练崩溃。研究团队开发的EPO框架通过轨迹感知熵正则化、历史窗口平滑机制和自适应权重调整,成功解决了这一难题,在测试中实现152%性能提升,为AI智能体处理复杂多步任务奠定了重要基础。
KAIST团队开发了名为REVIEWSCORE的AI系统,用于识别学术评审中的错误信息。研究发现,在AI顶级会议的评审意见中,26.4%的问题在论文中已有答案,15.2%的批评基于错误信息。该系统通过分析评审逻辑、验证前提假设来评估评审质量,为解决学术评审质量下降问题提供了新思路。
清华大学、新加坡国立大学等顶尖高校联合发布重大AI研究成果,创新性地提出变分推理框架解决AI推理训练中的偏见问题。该方法将AI思考过程分解为思维轨迹和答案两部分,通过"思考教练"机制避免AI偏向简单问题的毛病。实验显示在数学、编程等多个领域均有显著提升,为构建更智能可靠的AI系统奠定基础。
新加坡国立大学等机构研究团队提出反馈条件策略(FCP),让AI直接从文字反馈学习而非转换为数字评分。该方法在数学和通用推理任务上表现优异,能处理复杂混合反馈,支持灵活的行为控制,避免了传统强化学习中的奖励黑客问题,为AI训练开辟了新路径。
上海AI实验室等机构联合发布CapRL框架,通过创新的强化学习方法解决AI图像描述质量评判难题。该方法将主观的描述质量转化为客观的问答准确率测试,使30亿参数模型达到720亿参数模型的描述效果,在多项基准测试中实现显著提升,为视觉AI应用带来实质性改进。
香港中文大学研究团队创建了首个全面评估AI语音助手的标准体系VoiceAssistant-Eval,包含10,497个测试案例,涵盖听说看三大能力维度的13个任务类别。通过对22个模型的测试发现:商业模型并非全面领先,多数模型说话强于听力,小模型也能超越大模型,但多模态整合和安全性仍需改进。
这项由滴滴出行、中山大学、清华大学等机构联合开展的突破性研究首次深入揭示了人工智能在处理复杂长期任务时面临的重大挑战。研究团队开发了UltraHorizon测试平台,发现目前最先进的AI系统在长期任务中表现远不如人类,主要受限于"情境锁定"和"基础能力缺陷"两大根本问题,并提出了有效的解决策略。
香港中文大学研究团队开发的WebGen-Agent系统通过为AI配备视觉反馈和用户测试能力,解决了传统网站生成AI"盲目"开发的问题。该系统让AI能够"看见"网站外观并模拟用户测试功能,结合智能回溯机制和Step-GRPO训练方法,将Claude-3.5-Sonnet的网站生成准确率从26.4%提升至51.9%,美观度评分从3.0提升至3.9分,为AI网站生成技术带来突破性进展。
香港科技大学团队开发的LucidFlux是一个革命性的图像修复系统,能够在不需要任何文字描述的情况下自动修复模糊、噪点、压缩损坏的照片。该系统采用双分支条件器协同工作,一个分支保护细节信息,另一个分支抑制伪影,通过时间步和层级自适应调制实现精准修复。系统使用SigLIP直接从图像提取语义信息,避免了传统方法依赖文字描述的局限性。在多项测试中,LucidFlux都超越了现有的开源和商业修复工具,为图像修复技术树立了新标杆。
上海交通大学和上海人工智能实验室联合团队提出MesaTask框架,首次实现从高层任务指令直接生成符合要求的三维桌面场景。研究构建了包含10700个精调场景的MesaTask-10K数据集,通过"空间推理链"方法将复杂生成过程分解为物体推理、关系推理和场景构建三步。实验显示该方法在任务一致性和布局合理性方面显著优于现有技术,为机器人训练和智能场景生成提供了新的解决方案。
2025年10月16日,以“智算驱动·万象更新”为主题的超智算人工智能产业生态大会在北京银保园金融文化交流中心盛大启幕。
全新K5V系列开关融合LED背光、镀金可靠性与紧凑防尘设计,采用耐高温PAR材料,实现高效SMT组装。
10月17日,在2025 HICOOL 创业者峰会期间,由HICOOL主办,至顶科技联合主办的《人工智能分舞台》正式亮相。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。
这项由天津大学、滴滴出行等机构联合开展的研究提出了D-Artemis框架,通过模拟人类"思考-校准-反思"认知过程,让手机AI助手具备预执行错误检测和纠正能力。该框架在AndroidWorld上达到75.8%成功率,在ScreenSpot-V2上达到96.8%成功率,将传统系统的基础操作错误大幅降低,标志着AI助手从"事后补救"向"事前预防"的重要转变。
字节跳动研究团队推出X-Streamer技术,首次实现从单张照片生成具有无限对话能力的数字人。该系统采用思考者-行动者双架构,统一处理文本、语音和视频生成,支持实时交互和长时间稳定对话。在双GPU配置下可达25fps生成速度,在多项指标上超越现有方法,为数字人技术的实际应用奠定了基础。
腾讯优图实验室提出SPEAR方法,通过建立AI"成功经验库"和渐进式探索策略,解决智能体训练中的探索-利用平衡难题。该方法在虚拟环境、网购模拟和数学解题等任务中显著提升AI表现,仅增加10%-25%计算开销却带来高达20%的性能改进,为AI智能体实用化部署提供重要技术突破。
Scale AI和UCLA研究团队发现AI训练中的"奖励过度优化"问题关键在于高分区域的准确性。他们提出基于评分标准的新方法,通过详细的评判标准而非简单偏好判断来训练模型。实验显示该方法在通用对话和医疗诊断任务中显著提升了模型表现,胜率分别达到39.7%和34.4%,并有效延缓了性能衰减现象。
中科院团队开发的EAGLE框架首次实现了对多模态大语言模型决策过程的精确解释,能够揭示AI在生成文字时关注的图片区域,并区分其依赖视觉证据还是语言先验。该方法在准确性上比现有技术提升20%以上,计算资源需求减少80%,在幻觉检测和纠正方面表现卓越,为构建更可信的AI系统提供了重要工具。