人工智能 关键字列表
WWDC 2025:全部发布内容,包括 Liquid Glass、Apple Intelligence 更新及更多

WWDC 2025:全部发布内容,包括 Liquid Glass、Apple Intelligence 更新及更多

Apple在WWDC 2025中推出重大软件更新,包括采用全新液体玻璃界面的iOS26、以年份命名的系统升级、专用游戏应用及多项智能化功能,展现系统革新和便捷体验。

macOS Tahoe 即将推出的新功能

macOS Tahoe 即将推出的新功能

苹果在 WWDC 上宣布 macOS Tahoe,通过智能设计、系统联动及 Spotlight 升级,带来全新用户体验。

Mary Meeker 的科技报告展示了 AI 采纳的步伐与广度

Mary Meeker 的科技报告展示了 AI 采纳的步伐与广度

Mary Meeker 的报告详细解析了 AI 技术在数据、训练与商业应用上的飞速增长,展现了 ChatGPT 等产品快速超越传统搜索的趋势,预示着未来各领域都将迎来全面变革。

Superblocks CEO:如何通过研究 AI 系统提示寻找独角兽创意

Superblocks CEO:如何通过研究 AI 系统提示寻找独角兽创意

Superblocks 创始人 Brad Menezes 指出,AI 应用的核心在于定制化系统提示,通过角色设定、上下文和工具运用,帮助优化 LLM 调用,从而赋能非开发者构建企业级应用。

中科院团队发明"神奇前缀器":让AI训练速度飞起来的革命性技术

中科院团队发明"神奇前缀器":让AI训练速度飞起来的革命性技术

中科院团队提出Prefix Grouper方法,巧妙解决GRPO训练中的重复计算问题。通过将自注意力分解为前缀和后缀两部分,实现共享前缀的高效计算,在长文本场景下可将计算量降至原来的1/G。该方法保持与传统GRPO完全一致的训练效果,同时显著减少内存使用,支持更大组规模训练,具有即插即用特性。

AI基础设施市场回暖,科技巨头加大投入

AI基础设施市场回暖,科技巨头加大投入

今年早前大跌后,亚马逊、Alphabet、微软、Meta等巨头持续加大AI投资,带动数据中心及设备相关股票大幅反弹,提振市场信心得以迅速恢复。

IT 领导人成功实施 AI 的五大障碍

IT 领导人成功实施 AI 的五大障碍

本文总结了企业推广 AI 过程中面临的五大挑战:数据质量不佳、内部人才不足、竞争激烈的业务场景、陈旧的遗留系统以及员工阻挠。解决这些问题方能释放 AI 的真正价值。

HASHIRU:一个能自主调配资源的多智能体系统,让AI团队合作更聪明、更省钱

HASHIRU:一个能自主调配资源的多智能体系统,让AI团队合作更聪明、更省钱

HASHIRU是一个创新的多智能体系统,由加州大学戴维斯研究团队开发,采用"CEO-员工"层级结构,动态管理AI智能体团队。系统优先使用小型本地语言模型,仅在必要时调用更强大的外部API,通过经济模型控制资源分配,并能自主创建新工具扩展功能。实验表明,它在复杂推理任务上显著优于单一模型(如GSM8K:96% vs 61%),并能有效执行学术论文评审和安全评估任务,展现了更灵活、更高效的AI协作新范式。

规模法则让开源视觉语言模型比拼更公平:如何证明MaMMUT优于CLIP?

规模法则让开源视觉语言模型比拼更公平:如何证明MaMMUT优于CLIP?

这项研究首次通过规模法则全面比较了CLIP和MaMMUT两种视觉-语言模型,发现虽然小规模计算下CLIP表现更优,但随着计算资源增加,MaMMUT展现更强的扩展能力。研究在多种下游任务和不同开放数据集上验证了结果一致性,并基于发现训练了高性能的openMaMMUT-L/14模型。这种通过规模曲线而非单点比较的方法避免了片面结论,为模型与数据集的系统性评估提供了新范式。

视频编辑新突破:西湖大学团队推出无需训练的FlowDirector精准文本引导视频编辑技术

视频编辑新突破:西湖大学团队推出无需训练的FlowDirector精准文本引导视频编辑技术

这项研究介绍了FlowDirector,一种无需训练的视频编辑新框架,由西湖大学AGI实验室开发。不同于传统方法,该技术避开了易导致时间不一致和结构失真的反转过程,而是直接在数据空间中进行编辑。通过常微分方程引导视频沿着时空流形平滑过渡,结合空间注意力流校正和差分平均引导机制,实现了精确的文本引导视频编辑,同时保持未编辑区域的完整性和时间连贯性,为视频内容创作提供了新可能。

一步到位:南洋理工大学与字节跳动联合研发的SeedVR2如何实现超高效视频修复

SeedVR2是南洋理工大学与字节跳动团队共同研发的一步视频修复模型,通过扩散对抗式后训练实现高效视频增强。该模型突破了传统扩散模型需要多步采样的限制,引入自适应窗口注意力机制和特征匹配损失,成功在单步内实现高质量视频修复。实验表明,SeedVR2能以4倍速度提升达到甚至超越多步方法的效果,特别在处理真实世界高分辨率视频时表现优异。

记忆坚实的世界:斯坦福和上海交大研究团队为视频世界模型打造长期空间记忆

斯坦福大学和上海交大等机构的研究团队提出了一种为视频世界模型增加长期记忆能力的创新方法。受人类记忆机制启发,他们设计了三种互补的记忆系统:短期工作记忆、基于点云的长期空间记忆和稀疏情节记忆。这种组合允许AI在生成长视频时保持场景的空间一致性,解决了现有模型因有限上下文窗口导致的"遗忘"问题。实验表明,该方法在视角回忆一致性和整体视频质量方面显著优于现有技术,为创建持续一致的虚拟世界铺平了道路。

对角线批处理技术:突破循环记忆Transformer模型在长上下文处理中的并行瓶颈

对角线批处理技术:突破循环记忆Transformer模型在长上下文处理中的并行瓶颈

这篇研究介绍了"对角线批处理"技术,该技术解决了循环记忆Transformer模型在处理长文本时的并行计算瓶颈。通过重新编排计算顺序,研究团队实现了在不破坏依赖关系的情况下进行并行计算,使LLaMA-1B模型处理长文本的速度提升3.3倍,同时内存使用减少167.1倍。这种纯运行时优化不需要重新训练模型,为实际应用中的长文本处理提供了高效解决方案。

PATS技术:博尔扎诺自由大学研究团队开创的运动技能评估新方法,让AI更懂专业运动员的动作质量

PATS技术:博尔扎诺自由大学研究团队开创的运动技能评估新方法,让AI更懂专业运动员的动作质量

博尔扎诺自由大学研究团队开发的PATS技术通过保留完整运动片段代替随机抽取视频帧,显著提升了AI评估体育技能的能力。该方法在EgoExo4D基准测试中表现出色,攀岩评估准确率提高26.22%,音乐提高2.39%,篮球提高1.13%。PATS能根据不同运动类型自动调整采样策略,为体育训练和人才发展提供了更准确的自动评估技术。

ComfyUI-Copilot:阿里巴巴推出的智能助手让AI艺术创作更简单

阿里巴巴与哈工大(深圳)联合推出的ComfyUI-Copilot是一款基于大语言模型的插件,旨在提升AI艺术创作平台ComfyUI的易用性。它采用多代理框架提供三大核心功能:智能节点和模型推荐、一键式工作流构建和专业问答服务,所有功能由涵盖7K节点、62K模型和9K工作流的知识库支持。评估显示其推荐准确率高,已吸引超过1.6K的GitHub星标和来自22个国家19K用户的使用。

物理感知视频生成新突破:上海交大团队开发VideoREPA,通过关系对齐赋予AI视频物理常识

物理感知视频生成新突破:上海交大团队开发VideoREPA,通过关系对齐赋予AI视频物理常识

上海交大研究团队开发的VideoREPA是一种突破性的视频生成框架,通过令牌关系蒸馏技术将视频理解模型中的物理知识转移到文本到视频(T2V)扩散模型中。与传统方法不同,VideoREPA关注空间和时间关系的对齐,使生成的视频更符合物理常识。实验表明,这种方法在VideoPhy基准测试中将物理常识分数提高了24.1%,明显优于现有技术。该研究为创建更真实的AI生成视频提供了新思路,展示了理解能力与生成质量间的密切关联。

视觉密码破解:清华大学团队揭示多模态大语言模型中的视觉头稀疏性现象

视觉密码破解:清华大学团队揭示多模态大语言模型中的视觉头稀疏性现象

清华大学研究团队在多模态大语言模型(MLLMs)中发现了一个惊人现象:只有不到5%的注意力头负责视觉理解,称为"视觉头"。基于此,他们开发了SparseMM优化策略,针对视觉头和非视觉头分配不同的计算资源,实现了模型推理速度提升1.38倍,内存减少52%,同时保持性能不变。这一发现不仅揭示了MLLMs内部视觉处理机制,还为提高多模态AI系统效率提供了新思路。

数学视觉推理新突破:CUHK多媒体实验室的MINT-CoT如何让AI更好地理解数学图形

数学视觉推理新突破:CUHK多媒体实验室的MINT-CoT如何让AI更好地理解数学图形

香港中文大学多媒体实验室开发的MINT-CoT是一种创新方法,能让AI在数学视觉推理中实现精确的"视觉交织"。这项技术通过引入特殊的"交织令牌",使模型能够在推理过程中自动选择关注任意形状的相关图像区域,而非仅限于矩形框。研究团队构建了包含54K样本的数据集,并通过三阶段训练策略显著提升了模型性能,在多个数学视觉基准测试上取得32.59%到23.2%不等的巨大进步。

FlexPainter:香港科技大学团队打造的灵活多视角一致性纹理生成系统

FlexPainter:香港科技大学团队打造的灵活多视角一致性纹理生成系统

FlexPainter是香港科技大学团队开发的创新纹理生成系统,通过多模态输入控制实现灵活创作,并解决了多视角一致性问题。系统构建了共享条件嵌入空间,能同时理解文字和图像输入;提出基于图像的CFG方法实现结构与风格分离;通过多视角图像网格表示和视角同步机制确保全局和局部一致性;最终生成高质量、无缝的纹理贴图。实验证明系统在灵活性和生成质量上显著优于现有方法,为3D内容创作提供了更直观高效的工具。

Wispr 的 Flow 语音转写软件现已可在 iPhone 上使用

Wispr 的 Flow 语音转写软件现已可在 iPhone 上使用

Wispr 的 Flow 是一款创新的 iOS 语音输入软件,借助 AI 技术能将语音无缝转换为精美文字,每周免费 2000 字,支持 100 多种语言,并能实现多设备同步。