上海交通大学研究团队开发出革命性AI癌症诊断系统,通过深度学习技术分析50万张细胞图像,实现94.2%的诊断准确率,诊断时间从30分钟缩短至2分钟。该系统不仅能识别多种癌症类型,还具备解释性功能,已在多家医院试点应用。研究成果发表于《Nature Communications》,展示了AI在精准医疗领域的巨大潜力。
这项由台湾大学与微软研究团队合作的研究探索了使用音频感知大语言模型(ALLMs)作为自动评判员来评估语音生成模型的说话风格。研究设计了"语音风格指令跟随"和"角色扮演"两个任务,测试了四种语音模型的表现,并比较了人类与AI评判的一致性。结果表明,特别是Gemini-2.5-pro模型,其评判结果与人类评判的一致性甚至超过了人类评判者之间的一致性,证明ALLMs可以作为可靠的自动评估工具。同时研究也发现,即使是最先进的语音模型在说话风格控制方面仍有显著改进空间。
卡内基梅隆大学研究团队提出全新"Kinetics"缩放定律,揭示大语言模型测试阶段的资源分配策略需要重新思考。研究发现小型模型效率被严重高估,因为以往研究忽略了内存访问成本这一关键瓶颈。在测试阶段,注意力机制而非参数数量成为主要成本因素。基于此,团队提出以稀疏注意力为核心的新范式,显著提升问题解决准确率,在AIME测试中低成本场景下提升高达60个百分点,高成本场景下仍有5个百分点优势。
这项研究由加州大学伯克利分校团队完成,通过创建"Search Arena"平台收集了24,000多次用户与搜索增强型大语言模型的真实交互数据。研究发现用户提问远不止简单事实查询,他们更看重引用丰富的回答,即使引用与内容无直接关联。有趣的是,用户更偏爱社区平台引用,而非维基百科。研究还表明搜索能力不会影响AI在普通场景中的表现,但在需要实时信息时至关重要。这些发现为改进下一代AI助手提供了重要指导。
思科调查全球逾8065名高级IT及业务领导发现,拥堵、网络攻击和配置错误引发的网络故障每年可能使企业损失达1600亿美元。为迎接AI、IoT和云环境的挑战,现代网络必须更智能、更安全、更灵活。
Guardz 获得 5600 万美元 B 轮融资,通过 AI 驱动的全能安全平台与 MSP 合作,为中小企业提供与大企业同等的网络防护,帮助应对自动化网络攻击。
Apple在WWDC 2025中推出重大软件更新,包括采用全新液体玻璃界面的iOS26、以年份命名的系统升级、专用游戏应用及多项智能化功能,展现系统革新和便捷体验。
Mary Meeker 的报告详细解析了 AI 技术在数据、训练与商业应用上的飞速增长,展现了 ChatGPT 等产品快速超越传统搜索的趋势,预示着未来各领域都将迎来全面变革。
Superblocks 创始人 Brad Menezes 指出,AI 应用的核心在于定制化系统提示,通过角色设定、上下文和工具运用,帮助优化 LLM 调用,从而赋能非开发者构建企业级应用。
中科院团队提出Prefix Grouper方法,巧妙解决GRPO训练中的重复计算问题。通过将自注意力分解为前缀和后缀两部分,实现共享前缀的高效计算,在长文本场景下可将计算量降至原来的1/G。该方法保持与传统GRPO完全一致的训练效果,同时显著减少内存使用,支持更大组规模训练,具有即插即用特性。
今年早前大跌后,亚马逊、Alphabet、微软、Meta等巨头持续加大AI投资,带动数据中心及设备相关股票大幅反弹,提振市场信心得以迅速恢复。
本文总结了企业推广 AI 过程中面临的五大挑战:数据质量不佳、内部人才不足、竞争激烈的业务场景、陈旧的遗留系统以及员工阻挠。解决这些问题方能释放 AI 的真正价值。
HASHIRU是一个创新的多智能体系统,由加州大学戴维斯研究团队开发,采用"CEO-员工"层级结构,动态管理AI智能体团队。系统优先使用小型本地语言模型,仅在必要时调用更强大的外部API,通过经济模型控制资源分配,并能自主创建新工具扩展功能。实验表明,它在复杂推理任务上显著优于单一模型(如GSM8K:96% vs 61%),并能有效执行学术论文评审和安全评估任务,展现了更灵活、更高效的AI协作新范式。
这项研究首次通过规模法则全面比较了CLIP和MaMMUT两种视觉-语言模型,发现虽然小规模计算下CLIP表现更优,但随着计算资源增加,MaMMUT展现更强的扩展能力。研究在多种下游任务和不同开放数据集上验证了结果一致性,并基于发现训练了高性能的openMaMMUT-L/14模型。这种通过规模曲线而非单点比较的方法避免了片面结论,为模型与数据集的系统性评估提供了新范式。
这项研究介绍了FlowDirector,一种无需训练的视频编辑新框架,由西湖大学AGI实验室开发。不同于传统方法,该技术避开了易导致时间不一致和结构失真的反转过程,而是直接在数据空间中进行编辑。通过常微分方程引导视频沿着时空流形平滑过渡,结合空间注意力流校正和差分平均引导机制,实现了精确的文本引导视频编辑,同时保持未编辑区域的完整性和时间连贯性,为视频内容创作提供了新可能。
SeedVR2是南洋理工大学与字节跳动团队共同研发的一步视频修复模型,通过扩散对抗式后训练实现高效视频增强。该模型突破了传统扩散模型需要多步采样的限制,引入自适应窗口注意力机制和特征匹配损失,成功在单步内实现高质量视频修复。实验表明,SeedVR2能以4倍速度提升达到甚至超越多步方法的效果,特别在处理真实世界高分辨率视频时表现优异。
斯坦福大学和上海交大等机构的研究团队提出了一种为视频世界模型增加长期记忆能力的创新方法。受人类记忆机制启发,他们设计了三种互补的记忆系统:短期工作记忆、基于点云的长期空间记忆和稀疏情节记忆。这种组合允许AI在生成长视频时保持场景的空间一致性,解决了现有模型因有限上下文窗口导致的"遗忘"问题。实验表明,该方法在视角回忆一致性和整体视频质量方面显著优于现有技术,为创建持续一致的虚拟世界铺平了道路。
这篇研究介绍了"对角线批处理"技术,该技术解决了循环记忆Transformer模型在处理长文本时的并行计算瓶颈。通过重新编排计算顺序,研究团队实现了在不破坏依赖关系的情况下进行并行计算,使LLaMA-1B模型处理长文本的速度提升3.3倍,同时内存使用减少167.1倍。这种纯运行时优化不需要重新训练模型,为实际应用中的长文本处理提供了高效解决方案。
巴克莱银行与 Microsoft 签订协议,将 Copilot 集成到内部生产力工具中,为全球 10 万员工打造一站式 AI 平台,提升工作效率。