最新文章
全能模型的困境:为什么让AI什么都会可能适得其反?

全能模型的困境:为什么让AI什么都会可能适得其反?

这项来自加州大学戴维斯分校和俄亥俄州立大学的研究探讨了多模态AI训练的一个重要问题:让AI同时学会处理文字、图像、视频等多种信息类型时,是否会影响其原有的语言能力?研究发现,扩展模态确实存在能力权衡,模型合并技术比全模态同步训练更有效,为AI发展提供了重要启示。

‘严重’网络中断全球损失达1600亿美元

‘严重’网络中断全球损失达1600亿美元

思科调查全球逾8065名高级IT及业务领导发现,拥堵、网络攻击和配置错误引发的网络故障每年可能使企业损失达1600亿美元。为迎接AI、IoT和云环境的挑战,现代网络必须更智能、更安全、更灵活。

Microsoft 为 Xbox 掌机精简 Windows 11 繁琐部分

微软展示了与ASUS携手推出的Xbox掌机,搭载精简版Windows 11,舍弃了不必要的系统组件,提升了游戏性能和资源利用率。

Guardz 获得 5600 万美元融资,为小型企业带来企业级网络安全保护

Guardz 获得 5600 万美元融资,为小型企业带来企业级网络安全保护

Guardz 获得 5600 万美元 B 轮融资,通过 AI 驱动的全能安全平台与 MSP 合作,为中小企业提供与大企业同等的网络防护,帮助应对自动化网络攻击。

WWDC 2025:全部发布内容,包括 Liquid Glass、Apple Intelligence 更新及更多

WWDC 2025:全部发布内容,包括 Liquid Glass、Apple Intelligence 更新及更多

Apple在WWDC 2025中推出重大软件更新,包括采用全新液体玻璃界面的iOS26、以年份命名的系统升级、专用游戏应用及多项智能化功能,展现系统革新和便捷体验。

macOS Tahoe 即将推出的新功能

macOS Tahoe 即将推出的新功能

苹果在 WWDC 上宣布 macOS Tahoe,通过智能设计、系统联动及 Spotlight 升级,带来全新用户体验。

Mary Meeker 的科技报告展示了 AI 采纳的步伐与广度

Mary Meeker 的科技报告展示了 AI 采纳的步伐与广度

Mary Meeker 的报告详细解析了 AI 技术在数据、训练与商业应用上的飞速增长,展现了 ChatGPT 等产品快速超越传统搜索的趋势,预示着未来各领域都将迎来全面变革。

Superblocks CEO:如何通过研究 AI 系统提示寻找独角兽创意

Superblocks CEO:如何通过研究 AI 系统提示寻找独角兽创意

Superblocks 创始人 Brad Menezes 指出,AI 应用的核心在于定制化系统提示,通过角色设定、上下文和工具运用,帮助优化 LLM 调用,从而赋能非开发者构建企业级应用。

中科院团队发明"神奇前缀器":让AI训练速度飞起来的革命性技术

中科院团队发明"神奇前缀器":让AI训练速度飞起来的革命性技术

中科院团队提出Prefix Grouper方法,巧妙解决GRPO训练中的重复计算问题。通过将自注意力分解为前缀和后缀两部分,实现共享前缀的高效计算,在长文本场景下可将计算量降至原来的1/G。该方法保持与传统GRPO完全一致的训练效果,同时显著减少内存使用,支持更大组规模训练,具有即插即用特性。

突破传统限制:IIIT海德拉巴和IIT哈拉格普尔团队发布基于输入自注意力的软提示技术,让大语言模型更高效适应特定任务

突破传统限制:IIIT海德拉巴和IIT哈拉格普尔团队发布基于输入自注意力的软提示技术,让大语言模型更高效适应特定任务

这项研究由IIIT海德拉巴的Ananth Muppidi、IIT哈拉格普尔的Abhilash Nandy与Adobe研究院的Sambaran Bandyopadhyay共同完成,提出了一种名为ID-SPAM的创新方法,用于大语言模型的参数高效微调。该方法利用自注意力机制生成基于输入的软提示,使模型能够根据不同输入动态调整处理策略。实验表明,ID-SPAM在GLUE和SuperGLUE基准测试上优于现有软提示方法,并展现出出色的零样本域迁移能力。这一技术保持结构简单的同时,显著提升了模型在特定任务上的适应性。

AI基础设施市场回暖,科技巨头加大投入

AI基础设施市场回暖,科技巨头加大投入

今年早前大跌后,亚马逊、Alphabet、微软、Meta等巨头持续加大AI投资,带动数据中心及设备相关股票大幅反弹,提振市场信心得以迅速恢复。

IT 领导人成功实施 AI 的五大障碍

IT 领导人成功实施 AI 的五大障碍

本文总结了企业推广 AI 过程中面临的五大挑战:数据质量不佳、内部人才不足、竞争激烈的业务场景、陈旧的遗留系统以及员工阻挠。解决这些问题方能释放 AI 的真正价值。

《谍中谍8:最终清算》中出现的“智体”照进现实,哥伦比亚大学研究团队打造出真正的“自进化智体"
2025-06-10

《谍中谍8:最终清算》中出现的“智体”照进现实,哥伦比亚大学研究团队打造出真正的“自进化智体"

当AI学会自我进化:一台能不断重写自身代码的"达尔文哥德尔机器"正在实验室诞生,它像有创造力的厨师,不仅按食谱做菜,还能发明新菜谱并改进烹饪技术——这项突破让AI首次实现真正的自主进化,编程成功率从20%跃升至50%。

HASHIRU:一个能自主调配资源的多智能体系统,让AI团队合作更聪明、更省钱

HASHIRU:一个能自主调配资源的多智能体系统,让AI团队合作更聪明、更省钱

HASHIRU是一个创新的多智能体系统,由加州大学戴维斯研究团队开发,采用"CEO-员工"层级结构,动态管理AI智能体团队。系统优先使用小型本地语言模型,仅在必要时调用更强大的外部API,通过经济模型控制资源分配,并能自主创建新工具扩展功能。实验表明,它在复杂推理任务上显著优于单一模型(如GSM8K:96% vs 61%),并能有效执行学术论文评审和安全评估任务,展现了更灵活、更高效的AI协作新范式。

FEAT:北航团队推出全维高效注意力Transformer,让医疗视频生成更智能、更高效

FEAT:北航团队推出全维高效注意力Transformer,让医疗视频生成更智能、更高效

北航团队开发的FEAT是一种全新的医疗视频生成方法,通过三大创新解决了现有技术的关键问题:引入全维度依赖关系建模同时处理空间、时间和通道信息;采用线性复杂度的注意力机制大幅提高计算效率;设计残差值引导模块提供精细的像素级引导。实验证明,FEAT小型版本仅用23%的参数就达到了最先进模型的性能,其大型版本更是在多个数据集上全面超越现有方法,为医疗视频生成开辟了新的可能性。

规模法则让开源视觉语言模型比拼更公平:如何证明MaMMUT优于CLIP?

规模法则让开源视觉语言模型比拼更公平:如何证明MaMMUT优于CLIP?

这项研究首次通过规模法则全面比较了CLIP和MaMMUT两种视觉-语言模型,发现虽然小规模计算下CLIP表现更优,但随着计算资源增加,MaMMUT展现更强的扩展能力。研究在多种下游任务和不同开放数据集上验证了结果一致性,并基于发现训练了高性能的openMaMMUT-L/14模型。这种通过规模曲线而非单点比较的方法避免了片面结论,为模型与数据集的系统性评估提供了新范式。

MARBLE:CLIP空间中的材质重组与混合——牛津大学、MIT和Stability AI联合打造的智能图像材质编辑技术

MARBLE:CLIP空间中的材质重组与混合——牛津大学、MIT和Stability AI联合打造的智能图像材质编辑技术

MARBLE是一项由牛津大学、MIT和Stability AI联合开发的创新技术,通过操控CLIP空间中的材质表征,实现了图像中物体材质的精确编辑。它不仅支持基于示例的材质转移,还能实现材质混合和参数化控制,如调整物体的金属感、透明度、粗糙度和发光度。与传统方法不同,MARBLE保留预训练扩散模型的完整知识,同时提供前所未有的编辑精度,为设计师和内容创作者提供了强大而灵活的创意工具。

DOVE:加州大学团队推出"图像信息量自适应表示法",让AI更智能地理解图片

DOVE:加州大学团队推出"图像信息量自适应表示法",让AI更智能地理解图片

加州大学研究团队开发的DOVE系统彻底革新了AI图像处理方式,不再用固定长度表示所有图像,而是根据图像复杂度智能调整表示长度。就像人类描述简单白墙只需几句话,而描述繁忙街景需要更多细节一样,DOVE为简单图像分配更少的"视觉词汇",为复杂图像提供更多描述单元。实验证明,这种动态方法不仅节省计算资源,还提升了语义理解能力,在各类视觉任务中表现卓越。其查询条件化变体Q-DOVE更进一步,能根据用户问题聚焦相关图像区域,进一步提高效率与理解能力。

视频编辑新突破:西湖大学团队推出无需训练的FlowDirector精准文本引导视频编辑技术

视频编辑新突破:西湖大学团队推出无需训练的FlowDirector精准文本引导视频编辑技术

这项研究介绍了FlowDirector,一种无需训练的视频编辑新框架,由西湖大学AGI实验室开发。不同于传统方法,该技术避开了易导致时间不一致和结构失真的反转过程,而是直接在数据空间中进行编辑。通过常微分方程引导视频沿着时空流形平滑过渡,结合空间注意力流校正和差分平均引导机制,实现了精确的文本引导视频编辑,同时保持未编辑区域的完整性和时间连贯性,为视频内容创作提供了新可能。

SViMo:突破次元壁!清华与南方科技大学联手打造手物交互的视频-动作同步生成系统

SViMo:突破次元壁!清华与南方科技大学联手打造手物交互的视频-动作同步生成系统

SViMo是清华大学与南方科技大学等机构联合开发的创新系统,通过同步扩散模型实现手物交互视频与3D动作的协同生成。不同于传统方法分别处理视觉效果或物理动作,SViMo整合视觉先验和动态约束于统一框架中,采用三模态自适应调制对齐异构特征,并设计闭环反馈机制提升视频-动作一致性。实验证明SViMo生成的交互序列在视觉真实性、动态合理性和泛化能力上全面超越现有技术,无需预定义物体模型即可应对真实场景挑战。