人工智能 关键字列表
学会批评比学会模仿更有效:AI从"差评师"变身"数学高手"的奇妙旅程

学会批评比学会模仿更有效:AI从"差评师"变身"数学高手"的奇妙旅程

加拿大滑铁卢大学研究团队发现,让AI学会"批评"错误答案比学会"模仿"正确答案更能提升数学推理能力。这种"批评微调"方法仅用5万样本训练1小时,就达到了传统方法用250万样本的效果,在六个数学基准测试中平均提升4-10%,为AI训练开辟了新路径。

机器人也能预测未来?上海AI实验室打造"会做梦"的机器人大脑

机器人也能预测未来?上海AI实验室打造"会做梦"的机器人大脑

上海AI实验室等机构联合开发的EnerVerse系统,首次让机器人具备了"想象未来"的能力。通过将视频生成技术与机器人控制结合,该系统能够预测操作过程并生成相应动作。核心创新包括块状自回归生成、自由锚点视角和4D数据生成引擎,在LIBERO基准测试中达到最佳水平,并在真实环境中成功完成复杂操作任务。

日本Sakana AI实验室让大模型学会"自我改造":AI系统首次掌握实时自我调节能力

日本Sakana AI实验室让大模型学会"自我改造":AI系统首次掌握实时自我调节能力

日本Sakana AI实验室开发出Transformer?系统,首次实现AI模型实时自我调节能力。该系统通过奇异值微调技术,让大模型能根据任务类型自动调整内部参数配置,仅用传统方法1%的参数量就实现显著性能提升。系统采用两轮推理机制和强化学习训练,在数学、编程、视觉等多领域测试中均表现优异,甚至支持跨模型的专家知识迁移,为构建真正智能的自适应AI系统奠定了技术基础。

香港大学团队让视频编辑像玩拼图一样简单:把任何物体精准插入视频的魔法技术

香港大学团队让视频编辑像玩拼图一样简单:把任何物体精准插入视频的魔法技术

香港大学联合阿里巴巴达摩院开发出VideoAnydoor技术,实现视频中物体的精准插入和运动控制。该技术通过ID提取器、像素变形器和3D神经网络三大创新组件,让用户仅需提供参考图片和轨迹就能完成专业级视频编辑。在多项评估中表现卓越,为视频创作、虚拟试装、影视制作等领域带来革命性突破。

阿里巴巴团队发布MinMo:让AI和人类像朋友一样自然聊天的革命性语音模型

阿里巴巴团队发布MinMo:让AI和人类像朋友一样自然聊天的革命性语音模型

MinMo是阿里巴巴通义实验室开发的80亿参数多模态语音模型,在140万小时语音数据上训练,实现了全双工语音交互,支持多语言识别翻译、情感分析、风格控制等功能,语音响应延迟仅100-800毫秒,在各项语音任务上达到业界最佳性能,代表了AI语音交互技术的重大突破。

阿里巴巴团队推出CODEELO:首个让AI与人类程序员公平竞技的编程挑战平台

阿里巴巴团队推出CODEELO:首个让AI与人类程序员公平竞技的编程挑战平台

阿里巴巴团队开发了CODEELO,这是首个让AI模型与人类程序员在相同条件下公平竞技的编程评估平台。该系统通过直接将AI代码提交到真实竞赛平台CodeForces进行评判,实现了零误判和完全公平的评估环境。测试33个主流AI模型发现,只有OpenAI的o1-mini表现突出(评级1578,超越90%人类选手),大多数模型仍处于人类参赛者最低20%水平,揭示了AI在复杂推理任务中的真实能力差距。

清华大学与快手联合推出VideoReward:让AI视频生成更懂人心的突破性方法

清华大学与快手联合推出VideoReward:让AI视频生成更懂人心的突破性方法

这项由清华大学与快手科技等机构合作的研究构建了包含18.2万个人工标注样本的大规模视频偏好数据集,开发了VideoReward多维度视频评价系统,并提出了Flow-DPO等三种对齐算法,成功让AI视频生成模型学会按照人类偏好创作内容,显著提升了生成视频的质量和用户满意度。

ByteDance推出学术搜索神器:AI帮你轻松找齐论文,不再为文献调研发愁

ByteDance推出学术搜索神器:AI帮你轻松找齐论文,不再为文献调研发愁

ByteDance研究团队开发了PaSa智能学术搜索系统,通过双AI代理架构解决传统搜索局限性。系统能自动阅读论文、追踪引用网络,实现深度文献挖掘。在真实测试中,PaSa相比现有最佳方法在相关论文发现率上提升近40%。该系统已开源,为全球学术研究提供高效文献调研工具。

YouTube推出Shorts创作者生成式AI工具套件

YouTube推出Shorts创作者生成式AI工具套件

YouTube在其直播活动中发布了多项面向Shorts创作者的生成式AI工具,包括定制版Veo 3 Fast视频生成模型、新的混音工具和AI编辑功能。Veo 3 Fast能以480p分辨率低延迟生成带声音的视频片段,支持图像动画化、视频风格转换等功能。新的语音转歌曲混音工具可将对话转为配乐,AI编辑功能则能将原始素材自动制作成初稿。这些工具将陆续在多个市场推出。

访谈:将AI智能体作为评判者应用于生成式AI工作流程

访谈:将AI智能体作为评判者应用于生成式AI工作流程

劳埃德银行集团首席数据分析官博特朱表示,金融机构正探索通过生成式AI直接为客户提供服务,以解决传统个人化金融咨询模式无法规模化的问题。由于大语言模型存在"幻觉"等问题,银行采用"智能体作为评判者"的方法,让不同AI模型评估和审查其他模型的输出结果。该银行与苏格兰初创公司Aveni合作开发了专门的金融服务大语言模型FinLLM,并建立多重防护机制确保AI输出符合监管要求,为更广泛人群提供高质量金融指导服务。

Gemini凭借AI图像模型Nano Banana称霸应用商店

Gemini凭借AI图像模型Nano Banana称霸应用商店

Gemini移动应用自8月推出Nano Banana图像编辑模型后用户激增,该模型因能轻松执行复杂编辑和创建逼真图像而广受好评。据应用情报公司Appfigures数据,9月份下载量环比增长45%,已达1260万次。应用在9月12日超越ChatGPT成为美国App Store第一名,并在全球108个国家跻身iPhone应用前五。在消费支出方面,8月份iOS收入达160万美元,同比1月增长1291%。

Meta Connect 2025发布会前瞻:智能眼镜成主角

Meta Connect 2025发布会前瞻:智能眼镜成主角

Meta Connect 2025大会将于周三开幕,预计AI智能眼镜将成为焦点。公司可能发布与Ray-Ban和Oakley合作的新款智能眼镜,包括配备抬头显示屏的Hypernova眼镜和专为运动员设计的Oakley Spheara款式。此次大会是Meta成立超级智能实验室后的首次Connect会议,扎克伯格将发表主题演讲,讨论元宇宙、Quest头显和AI发展计划。

英国初创公司在纽约安装首台量子计算机

英国初创公司在纽约安装首台量子计算机

英国Oxford Quantum Circuits公司在曼哈顿数据中心安装了纽约市首台量子计算机,旨在为客户提供更快速高效的AI程序运行服务。该公司计划未来3-5年投资数千万美元,部分用于采购英伟达芯片进行集成。这一"量子-AI数据中心"项目预计将显著提升数据生成效率,特别有利于金融领域应用。

人形机器人公司Figure AI融资10亿美元,加速AI数据收集与生产

人形机器人公司Figure AI融资10亿美元,加速AI数据收集与生产

人形机器人公司Figure AI宣布完成超过10亿美元的C轮融资,资金将用于扩大机器人生产、构建英伟达GPU基础设施以加速训练和仿真,并扩展人类工作生活数据收集。该公司目标是在未来四年内交付10万台人形机器人,其Figure 02机器人搭载Helix AI智能系统,能够理解未见过的物体并做出合理行动。英特尔、英伟达、LG等公司参与投资。

硅谷重金押注"环境训练"技术推动AI智能体发展

硅谷重金押注"环境训练"技术推动AI智能体发展

硅谷科技巨头多年来一直宣传AI智能体愿景,但现有技术仍然有限。强化学习环境被视为训练AI智能体的关键技术突破。这些环境模拟真实工作场景,让智能体学习复杂任务。顶级AI实验室正大量需求此类环境,催生了Mechanize、Prime Intellect等初创公司。数据标注巨头Scale AI、Surge也在转型。据报道,Anthropic考虑明年投资超10亿美元。尽管前景看好,但专家对强化学习环境的可扩展性存在分歧。

类人机器人设计思考:Fourier开源系统带来新突破

类人机器人设计思考:Fourier开源系统带来新突破

随着AI能力的爆发式增长,仿人机器人的灵活性进化备受关注。傅里叶推出的开源设计展现了机器人行走、奔跑和攀坡能力。尽管目前仿人机器人仅占商业制造销售的不足2%,但专家普遍认为仿人机器人时代即将到来。斯坦福专家讨论了零样本设计、运动复杂性和安全性等挑战。

Forrester技术创新峰会前瞻:为新兴技术做好准备

Forrester技术创新峰会前瞻:为新兴技术做好准备

Forrester发布2025年十大新兴技术报告,将生成式AI列为IT领导者近期需重点关注的技术。报告显示,短期技术在AI加速与安全需求间寻求平衡,生成式AI、TuringBots和物联网安全仍位列前十。代理AI和合成数据新入榜单,预计两年内可实现可观投资回报。中期技术包括代理AI、边缘智能和自动驾驶等,但面临现实复杂性挑战。量子计算虽不在短中期ROI展望中,但Forrester建议零风险容忍组织开始投资量子安全。

2025云栖大会剧透来了!今年有哪些AI新看点?

2025云栖大会剧透来了!今年有哪些AI新看点?

2025云栖大会将于9月24日至26日在杭州云栖小镇举行。

阿里巴巴OmniThink:让机器写作像人类一样慢思深考的突破性框架

阿里巴巴OmniThink:让机器写作像人类一样慢思深考的突破性框架

阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。

腾讯混元3D 2.0:让想象变为3D现实的神奇"数字魔术师"

腾讯混元3D 2.0:让想象变为3D现实的神奇"数字魔术师"

腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。