最新文章
F5G-A万兆全光园区 AI时代标配 | 华为举办园区网络“以光惠算”先锋行动发布会
2025-05-17

F5G-A万兆全光园区 AI时代标配 | 华为举办园区网络“以光惠算”先锋行动发布会

华为围绕F5G-A构建覆盖"研、营、销、供、服"全周期的伙伴支撑体系,赋能伙伴抓住园区网络“以光惠算”大机遇。

大模型应用开发,CPU如何发光发热?

大模型应用开发,CPU如何发光发热?

CPU的优势在于其低成本、易获得性,以及能够满足多数场景下的基本AI推理需求。

华为云超节点创新算力基础设施,推动千行万业AI应用开发落地
2025-05-16

华为云超节点创新算力基础设施,推动千行万业AI应用开发落地

做强算力底座、做好服务生态,华为云持续引领行业智能化变革。

鲲鹏昇腾开发者大会2025即将在北京召开
2025-05-16

鲲鹏昇腾开发者大会2025即将在北京召开

线上创享周,线下大会,不可错过的鲲鹏昇腾开发者大会2025。

Meta发布J1:通过强化学习激励LLM思考和做出更好的判断

Meta发布J1:通过强化学习激励LLM思考和做出更好的判断

这篇研究介绍了Meta公司开发的J1系统,这是一种通过强化学习训练大语言模型进行评判的创新方法。J1将可验证和不可验证的提示转换为具有可验证奖励的判断任务,从而鼓励模型在做出决策前先进行思考。研究表明,J1在8B和70B参数规模下都超越了同等规模的现有模型,甚至在某些测试中超过了更大的模型如o1-mini和DeepSeek-R1。这种方法的核心创新在于不仅优化最终判断,还优化思考过程本身,使模型学会制定评估标准、生成参考答案并重新评估回答的正确性。

解锁视觉令牌化的全新潜能:北京人工智能研究院提出端到端视觉令牌化调优方法

解锁视觉令牌化的全新潜能:北京人工智能研究院提出端到端视觉令牌化调优方法

北京人工智能研究院等机构研究团队提出的"端到端视觉令牌化调优"(ETT)方法解决了视觉令牌化器在多模态任务中的表示瓶颈问题。与传统方法不同,ETT利用令牌化器码本嵌入代替离散索引,并通过重建和描述目标端到端优化视觉令牌化器。实验表明,该方法在保持重建能力的同时,为多模态理解和视觉生成任务带来2-6%的性能提升,显著超越现有离散令牌化方法,甚至接近连续编码器的性能。

深度无限融合:浙江大学和香港大学联合打造的「Prior Depth Anything」,让你的相机看得更深更远

深度无限融合:浙江大学和香港大学联合打造的「Prior Depth Anything」,让你的相机看得更深更远

浙江大学和香港大学的研究团队提出了Prior Depth Anything,一个创新框架,融合了深度测量中精确但不完整的度量信息与深度预测中相对但完整的几何结构。该方法通过粗到细的流程,先用像素级度量对齐将深度预测与先验融合,再利用条件化单目深度估计模型优化结果。模型在7个真实数据集上实现了出色的零样本迁移,可处理深度补全、超分辨率和修复任务,甚至能应对混合先验情况,并支持测试时切换预测模型,提供灵活的精度-效率权衡。

开启视觉思维:通过视觉工具强化学习赋能大型视觉语言模型

开启视觉思维:通过视觉工具强化学习赋能大型视觉语言模型

一项由苏州大学、微软等机构合作的研究OPENTHINKIMG首次提出了完整的视觉工具强化学习框架,解决了当前大型视觉语言模型缺乏视觉思维的问题。该研究基于Qwen2-VL-2B基础模型,开发了V-TOOLRL方法,通过分布式工具部署、轨迹生成和强化学习,使AI能像人类一样"用图像思考"。实验表明,在图表推理任务上,该方法准确率达59.39%,显著超越了同类开源系统并优于GPT-4.1,为未来AI视觉认知提供了新路径。代码已在GitHub开源,将促进相关领域研究。

深度融合大型语言模型与扩散变换器:新一代AI图像生成技术的突破性探索

深度融合大型语言模型与扩散变换器:新一代AI图像生成技术的突破性探索

这项研究探索了将大型语言模型(LLM)与扩散变换器(DiT)深度融合用于文本到图像生成的新方法。纽约大学和Hugging Face的研究团队没有提出全新技术,而是系统分析了现有方法的设计空间和关键参数选择。研究发现深度融合模型在图像-文本对齐方面优于传统方法,特别是在移除时间步调节和采用混合位置编码策略后性能显著提升。他们的FuseDiT模型在有限数据和计算资源下仍达到了与顶级系统相当的性能,为多模态生成提供了实用指南。

ReSurgSAM2:新加坡国立大学团队打造的手术视频智能追踪系统,让外科医生用语言指令精准追踪手术工具与组织

ReSurgSAM2:新加坡国立大学团队打造的手术视频智能追踪系统,让外科医生用语言指令精准追踪手术工具与组织

ReSurgSAM2是新加坡国立大学团队开发的两阶段手术视频分割系统,允许外科医生通过文本指令精准识别和追踪手术器械与组织。这项创新利用SAM2模型为基础,添加了跨模态空间-时间Mamba、可靠初始帧选择和多样性驱动长期记忆机制,解决了现有技术在长时间追踪和实时性能方面的局限。实验表明,该系统在准确性上显著超越现有方法,同时保持61.2 FPS的实时处理能力,为手术认知辅助、教育和导航提供了强大工具。

Waymo召回1200辆机器人出租车,因低速碰撞门和链

Waymo召回1200辆机器人出租车,因低速碰撞门和链

Waymo 因发现无人驾驶出租车在低速行驶时撞击大门、链条等固定障碍物,召回了其中 1,200 辆车辆,并通过软件更新降低风险,满足监管要求。

推进 AI 系统散热到极限:不采用浸入式冷却

推进 AI 系统散热到极限:不采用浸入式冷却

本文探讨了 AI 数据中心如何利用直冷技术应对 GPU 高功率散热和电力分配挑战,通过 Supermicro 的 DLC-1 与 DLC-2 系统实现能耗降、噪音减。

Acorns 收购家庭财富及数字记忆平台 EarlyBird

Acorns 收购家庭财富及数字记忆平台 EarlyBird

Acorns收购了家庭投资赠礼平台EarlyBird。收购后平台将关闭,创始人加入Acorns团队,助力打造儿童理财App Acorns Early,并整合数字时间胶囊功能,助全家传承财富。

Cognichip走出隐身状态,目标利用生成式 AI 开发新芯片

Cognichip走出隐身状态,目标利用生成式 AI 开发新芯片

Cognichip 正在构建基于物理知识的基础 AI 模型,以加速新芯片的研发,降低成本,并帮助半导体企业实现转型。

2025-05-16

腾讯混元图像2.0模型正式发布

5月16日,腾讯发布最新混元图像2.0模型(Hunyuan Image2.0),基于模型架构创新,在行业内率先实现实时生图,在画面质感超写实的基础上,带来全新的AI生图交互体验。模型于即日起在腾讯混元官方网站上线,并对外开放注册体验。

M&S 数据泄露后强制用户重置密码

M&S 数据泄露后强制用户重置密码

M&S近日确认,其服务器在复活节遭到DragonForce勒索软件攻击,客户的联系方式、个人信息及订单记录等数据被窃。为确保账户安全,在线客户将被要求重置密码。尽管支付信息未受影响,但专家警告泄露的信息仍可能被用于网络钓鱼等攻击;同时,Co-op也因类似攻击遭遇供应中断问题。

Netflix 全面升级电视应用:全新界面与响应式推荐

Netflix 全面升级电视应用:全新界面与响应式推荐

Netflix对电视应用进行全面升级,通过全新简洁的界面和智能动态推荐,帮助用户更快找到喜爱的内容,同时支持直播、游戏等新娱乐体验。

Google推出 Gemini iPad 应用

Google推出 Gemini iPad 应用

Google 正在扩展 Gemini AI 的应用体验,推出专为 iPad 设计的 Gemini 应用。该应用支持原生 Apple 硬件和分屏模式,让用户可同时使用 Gemini 助手与其他应用,目前在所有支持 Gemini 的地区均可于 App Store 下载,更多功能或将于 Google I/O 2025 推出。

Spotify 的 AI DJ 现已支持点歌

Spotify 的 AI DJ 现已支持点歌

Spotify 的 AI DJ 允许付费用户通过语音请求播放符合心情、艺术风格、流派或活动氛围的歌曲。该功能由 OpenAI 实时生成语音,旨在融合个性化推荐与传统电台体验,但初期版本仅支持英文请求。