新加坡国立大学研究团队发布了离散扩散大语言模型的全面综述,这种新型AI写作模式让机器能像人类一样反复修改文本,而非传统的从左到右逐字生成。技术实现了10倍推理加速,支持精确的格式控制和并行生成,在保持传统模型性能的同时,解决了可控性和推理效率问题。
新加坡南洋理工大学联合多个国际研究机构开发出突破性AI系统Ego-R1,首次实现对一周超长视频的智能理解和推理。该系统采用独创的"工具链思维"方法,让AI像侦探一样使用不同工具分步解决问题,在44.3小时视频理解任务中达到46%准确率,显著超越现有技术,为未来个人AI助手的发展开辟新道路。
这项由电子科技大学、香港中文大学等机构联合完成的研究,创建了PersonaFeedback基准来评估AI的个性化能力。研究包含8298个测试案例,分为三个难度等级,发现即使最先进的AI模型在个性化任务上表现也不理想。研究还发现推理能力提升不等于个性化能力提升,直接提供用户信息比让AI推测更有效。
中科院团队开发的BridgeVLA系统实现了机器人学习的重大突破,仅需3次演示就能让机器人掌握复杂操作技能,成功率达96.8%。该系统通过巧妙的输入输出对齐设计和创新的预训练策略,让机器人能够真正理解三维空间和语言指令,为智能机器人的普及应用奠定了重要基础。
日本Sakana AI联合东京大学和AtCoder推出了首个专门测试AI长期算法优化能力的基准ALE-Bench。研究发现当前最强AI模型虽然在某些算法问题上能达到人类专家前11.8%水平,但整体表现不够稳定。AI通过快速试错在短期竞赛中表现较好,但在需要深度创新的长期挑战中仍落后于人类。这项研究为AI在实际工程优化中的应用提供了重要参考。
这项研究揭示了多语言大型语言模型内部的语言表示对齐现象,并开发出推理时语言控制技术(ITLC),能在不重新训练模型的情况下精确控制语言输出。研究团队发现模型中间层存在自然的跨语言对齐,基于此开发的语言控制方法在跨语言生成和缓解语言混淆方面表现优异,语言正确率达到近100%,为多语言AI应用提供了新的技术路径。
清华大学研究团队提出"AI智能体行为科学"新范式,通过观察AI在虚拟环境中的自发行为发现其具备规划、适应和社交能力。研究涵盖个体行为、群体互动和人机协作三个层面,并借鉴福格行为模型建立了能力-动机-触发器的行为适应框架,为负责任AI发展提供了行为导向的测量和优化方法。
智能代理AI已成为最受关注的技术之一,它通过强调运营决策而非内容生成,将生成式AI推向新高度。该技术能够与ERP、CRM和商业智能系统无缝集成,实现实时决策和流程自动化。九大主要应用场景包括:软件开发、增强版RPA、客户支持自动化、企业工作流自动化、网络安全威胁检测、生产力提升、报告生成、HR员工支持和商业智能分析。
麻省理工学院科学家研究发现,使用大语言模型可能导致学习技能下降。研究团队对54名波士顿地区参与者进行了为期4个月的写作实验,分为无辅助、搜索引擎辅助和ChatGPT辅助三组。通过脑电图设备监测发现,使用LLM的参与者在写作时大脑连接性降低55%,专注注意力相关的脑波活动也更弱。此外,该组参与者在引用自己文章内容时表现较差,对作品的归属感也更低。研究建议在学习者进行充分自主认知努力后再引入AI工具。
研究显示,美国软件开发者是全球AI编程助手使用率最高的群体。研究人员分析了2018至2024年间GitHub上8000万次代码提交,发现2024年美国提交的Python函数中30.1%由AI生成,德国为24.3%,法国23.2%,印度21.6%,俄罗斯15.4%,中国11.7%。当开发者30%的代码使用AI时,季度提交量增长2.4%。研究估算AI辅助编程为美国带来96至144亿美元年度价值。
AI公司Midjourney发布首个视频模型,用户可将图像制作成动画,支持平台内生成或外部上传的图片。初始视频为5秒片段,可延长至最多20秒。该功能仅限网页端使用,需月付10美元订阅。尽管在视频AI领域起步较晚,但面临创作者指控其模型训练涉嫌侵权。迪士尼和NBC环球上周起诉该公司版权侵权。
麻省大学团队开发PatchInstruct方法,通过"补丁分解"技术让大型语言模型无需重新训练即可准确预测时间序列数据。该方法在天气和交通预测中表现优异,短期预测误差降低85%,速度提升100-500倍,为实时预测应用提供了轻量级、高效的解决方案,展现了通用AI适应专门任务的新可能。
布朗大学与Adobe研究院联合推出MS4UI数据集,专门解决软件教学视频的智能总结问题。该研究收集了2413个Adobe软件教程视频,提出视频分割、文本总结、视频总结三大任务,为软件学习AI开辟新方向。实验显示现有方法表现不佳,凸显了专业领域AI的技术挑战。
麻省理工与UMass研究团队开发出"预算引导"技术,解决深度思考AI模型推理过程过于冗长的问题。该方法通过轻量级预测器引导AI按预算思考,在MATH-500测试中比传统方法准确率提升26%,同时将思考词汇减少37%,实现了效率与准确性的双重优化。
俄罗斯下尼诺夫哥罗德大学研究者开发出AI学术论文质量检查系统,能识别摘要和结论中的无根据信息和模糊代词。测试显示不同AI模型在特定任务中表现差异显著,为学术写作质量控制提供新工具。
中科大团队推出深度研究智能体评测基准DeepResearch Bench,包含100个跨22领域的博士级研究任务,创新性地设计了RACE和FACT双重评估框架,分别评判AI生成报告质量和信息收集能力。测试显示谷歌Gemini表现最佳,该研究为AI研究助手行业建立了首个科学统一的评估标准。
中科大与Metastone公司合作提出"归因接地"框架,通过分析真实指令的产生机制来大规模合成高质量训练数据。该方法将指令归因于文档、用户和动机三要素,构建了100万条指令的SynthQuestions数据集。实验显示,用该数据集训练的AI模型性能显著提升,证明了质量胜过数量的重要性,为解决AI训练数据稀缺问题提供了新思路。
伦敦大学学院研究团队开发的NOWAIT方法通过阻止AI生成"等等"、"嗯"等思考词汇,在保持准确性的同时将AI输出长度减少27%-51%。该方法无需重新训练模型,可直接应用于现有AI系统,为提高AI推理效率提供了简单有效的解决方案。
Kong Research发布的2025年企业大语言模型采用报告基于550名IT领导者调研,揭示了企业生成式AI从谨慎探索转向战略必需的十大趋势:投资大幅增长,72%企业预计支出上涨;谷歌以69%使用率领先OpenAI;企业偏好付费解决方案;安全隐私仍是主要障碍;国际供应商获得认可;混合策略兴起;客户支持和开发者生产力成主要应用场景;开源模型受青睐;成本仍是关键障碍;82%企业对AI影响持乐观态度。
GenLayer启动首个激励测试网Asimov,推出智能区块链基础设施。该平台结合AI模型和区块链技术,通过大语言模型验证器处理主观决策,为AI代理时代构建去中心化法律基础设施。同时发布Rally营销协议,利用AI自动评估社交媒体内容并分发奖励,品牌可设定规则让系统自主管理影响者营销活动,大幅降低运营成本并提高透明度。