一项由苏州大学、微软等机构合作的研究OPENTHINKIMG首次提出了完整的视觉工具强化学习框架,解决了当前大型视觉语言模型缺乏视觉思维的问题。该研究基于Qwen2-VL-2B基础模型,开发了V-TOOLRL方法,通过分布式工具部署、轨迹生成和强化学习,使AI能像人类一样"用图像思考"。实验表明,在图表推理任务上,该方法准确率达59.39%,显著超越了同类开源系统并优于GPT-4.1,为未来AI视觉认知提供了新路径。代码已在GitHub开源,将促进相关领域研究。
这项研究探索了将大型语言模型(LLM)与扩散变换器(DiT)深度融合用于文本到图像生成的新方法。纽约大学和Hugging Face的研究团队没有提出全新技术,而是系统分析了现有方法的设计空间和关键参数选择。研究发现深度融合模型在图像-文本对齐方面优于传统方法,特别是在移除时间步调节和采用混合位置编码策略后性能显著提升。他们的FuseDiT模型在有限数据和计算资源下仍达到了与顶级系统相当的性能,为多模态生成提供了实用指南。
ReSurgSAM2是新加坡国立大学团队开发的两阶段手术视频分割系统,允许外科医生通过文本指令精准识别和追踪手术器械与组织。这项创新利用SAM2模型为基础,添加了跨模态空间-时间Mamba、可靠初始帧选择和多样性驱动长期记忆机制,解决了现有技术在长时间追踪和实时性能方面的局限。实验表明,该系统在准确性上显著超越现有方法,同时保持61.2 FPS的实时处理能力,为手术认知辅助、教育和导航提供了强大工具。
Waymo 因发现无人驾驶出租车在低速行驶时撞击大门、链条等固定障碍物,召回了其中 1,200 辆车辆,并通过软件更新降低风险,满足监管要求。
本文探讨了 AI 数据中心如何利用直冷技术应对 GPU 高功率散热和电力分配挑战,通过 Supermicro 的 DLC-1 与 DLC-2 系统实现能耗降、噪音减。
Acorns收购了家庭投资赠礼平台EarlyBird。收购后平台将关闭,创始人加入Acorns团队,助力打造儿童理财App Acorns Early,并整合数字时间胶囊功能,助全家传承财富。
Cognichip 正在构建基于物理知识的基础 AI 模型,以加速新芯片的研发,降低成本,并帮助半导体企业实现转型。
5月16日,腾讯发布最新混元图像2.0模型(Hunyuan Image2.0),基于模型架构创新,在行业内率先实现实时生图,在画面质感超写实的基础上,带来全新的AI生图交互体验。模型于即日起在腾讯混元官方网站上线,并对外开放注册体验。
M&S近日确认,其服务器在复活节遭到DragonForce勒索软件攻击,客户的联系方式、个人信息及订单记录等数据被窃。为确保账户安全,在线客户将被要求重置密码。尽管支付信息未受影响,但专家警告泄露的信息仍可能被用于网络钓鱼等攻击;同时,Co-op也因类似攻击遭遇供应中断问题。
Netflix对电视应用进行全面升级,通过全新简洁的界面和智能动态推荐,帮助用户更快找到喜爱的内容,同时支持直播、游戏等新娱乐体验。
Google 正在扩展 Gemini AI 的应用体验,推出专为 iPad 设计的 Gemini 应用。该应用支持原生 Apple 硬件和分屏模式,让用户可同时使用 Gemini 助手与其他应用,目前在所有支持 Gemini 的地区均可于 App Store 下载,更多功能或将于 Google I/O 2025 推出。
Spotify 的 AI DJ 允许付费用户通过语音请求播放符合心情、艺术风格、流派或活动氛围的歌曲。该功能由 OpenAI 实时生成语音,旨在融合个性化推荐与传统电台体验,但初期版本仅支持英文请求。
文章总结了 OECD 调研报告中关于光纤宽带、5G、FWA、M2M及卫星通信等技术的快速增长,展示了全球高质量网络覆盖的持续扩展趋势。
Patronus AI发布全新平台Percival,能自动识别AI代理中的多种故障模式并提供优化建议,显著缩短调试时间,保障企业级系统的可靠性。
文章阐述了数据中心由传统向多样化转型,着重介绍了Intel Xeon 6 CPU采用P核与E核双架构,在AI、高性能计算及云边端场景中实现高效节能的创新应用。
ML管理员负责规划、设计、执行及监控大语言模型的全生命周期,包括匹配基础设施、处理合规事宜和管理与主要 AI 供应商(如 OpenAI、Anthropic)的企业账户,助力企业AI应用落地。
文章回顾了 Valkey 从 Redis 分支启动后的发展历程,介绍了 8.1 版本的发布、功能优化与社区扩展,并展望基于新改动的 v9 更新。
西部数据提供 NVMe PCIe 到以太网的 RapidFlex 桥接技术给 Ingrasys,用于打造面向边缘、云服务及超大数据中心的低延迟分布式 SSD 存储系统。