Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。
阿里巴巴RecGPT团队开发的RecGPT-V2系统通过多代理协作、动态解释生成、约束强化学习等创新技术,将推荐系统从简单的行为匹配升级为深度意图理解。在淘宝平台测试中实现了点击率提升2.98%、交易额增长2.19%等显著改进,同时GPU消耗降低60%,代表了推荐系统向智能化转型的重大突破。
北京大学团队开发了名为Scone的AI绘画新技术,解决了现有AI在复杂图像中无法准确识别指定对象的问题。该系统通过"理解桥梁"策略,让AI能像人类一样精准理解用户指令,在包含多个候选对象的图像中准确识别目标并生成相应画面。团队还创建了SconeEval评测基准,Scone在测试中表现优异,在开源模型中排名第一。
YouTube Gaming宣布推出Playables Builder开放测试版,允许特定创作者使用基于Gemini 3的原型网页应用制作小型游戏,无需编程知识。该工具类似于Google Labs的Disco和GenTabs项目,通过自然语言输入生成交互式内容。尽管AI助手能帮助用户无需技术知识即可创作,但优秀游戏需要技巧、迭代和专业知识才能打造真正有趣的体验。
英伟达凭借其庞大的硬件业务利润,成为唯一能够承担免费提供AI模型成本的公司。随着OpenAI、Anthropic等专有模型制造商竞争加剧,Meta考虑转向封闭模型,英伟达却加倍投入开源Nemotron模型。公司可以成本价获得任何规模的AI集群进行训练,其AI Enterprise软件栈年费仅4500美元。新发布的Nemotron 3采用混合专家架构,结合Mamba-Transformer技术,显著提升推理效率和内存使用率。
OpenAI推出全新旗舰图像生成模型GPT Image 1.5,具备更强的指令理解能力、精准图片编辑功能,生成速度提升四倍。新模型在修改现有照片方面表现出色,支持实用的照片编辑、逼真的服装发型试穿效果,以及保持原图精髓的风格滤镜和概念转换。ChatGPT侧边栏新增专用图像标签页,提供预设滤镜和热门提示。OpenAI将此定位为企业级实用工具,从新奇图像生成转向实用高保真视觉创作。
普渡大学和佐治亚理工学院研究人员提出采用脑启发算法构建AI计算机架构的新方法。研究显示,传统冯·诺依曼架构中处理器与内存分离造成数据传输瓶颈,随着AI模型规模四年内增长5000倍,能耗问题日益严重。研究团队建议采用脉冲神经网络和存内计算技术,将处理和存储功能集成,突破"内存墙"限制,显著降低AI模型能耗,使AI设备更适用于医疗、交通和无人机等实际应用场景。
本文推荐了多款Mac桌面配置升级产品,包括罗技MX Master 4鼠标、Satechi桌垫、OWC雷电5扩展坞、Satechi 165W充电器、笔记本支架、Beats Pill音箱、iPhone支架、苹果妙控键盘和触控板、耳机支架、HomeKit智能灯带、飞利浦Hue灯条、桌面台灯、桌下收纳架以及清洁用品等。这些配件能够显著提升工作效率和桌面美观度,为Mac用户打造完美的办公环境。
PTC(纳斯达克代码:PTC)今日宣布,BENTELER 集团旗下子公司 HOLON 正在使用其软件即服务(SaaS)模式的 Windchill+(R) 产品生命周期管理(PLM)解决方案,用于研发并推向市场一款符合汽车行业要求的 L4 级自动驾驶电动汽车(EV)。
OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。
Zoom推出AI Companion 3.0,采用联邦AI架构结合自研模型与OpenAI、Anthropic等第三方大语言模型。新版本具备智能工作流、对话式工作界面等功能,可将会议对话转化为洞察、进度跟踪和文档内容。系统支持加密传输,不使用客户内容训练模型。用户可通过ai.zoom.us访问,或以每月10美元独立购买。
根据Cloudflare 2025年度报告,ChatGPT的爬虫GPTBot是互联网上被阻止最多的机器人,而其最大竞争对手谷歌则是最被允许的爬虫。报告显示,非人类机器人现占互联网流量的56.5%,其中AI服务爬虫增长最快。不同网站对爬虫态度各异,一些希望获得流量,另一些则认为机器人在未给予充分补偿的情况下获取价值。在爬取与推荐比率方面,Anthropic的表现最差,达到10万比1。
英伟达发布三款全新开源权重模型Nemotron,包括Nano、Super和Ultra三个版本,参数量分别为300亿、1000亿和5000亿。这些模型采用混合潜在专家架构,结合Mamba-2和Transformer技术,支持百万token上下文窗口,可在企业硬件上高效运行。英伟达还将开源训练数据和强化学习环境,帮助企业定制化模型。
Meta发布新款SAM Audio模型,能够通过文本、时间段标记和视频视觉选择等多种提示方式分离和编辑音频。该模型可从歌曲中提取特定乐器声音,或从录音中去除背景噪音,大幅减少传统音频编辑的手工操作。Meta声称这是首个统一的多模态音频分离模型,已在Segment Anything平台上线并开放下载。
Dell'Oro集团研究显示,第三季度数据中心存储、服务器和以太网交换机显著增长,推动组件销售同比激增40%。以太网交换机表现突出,收入达到创纪录的80亿美元。在AI热潮推动下,超大规模厂商持续引领数据中心基础设施增长。英伟达、三星和SK海力士在GPU、CPU等半导体领域获得丰厚收益。Dell'Oro预测未来五年服务器和存储系统组件收入将以26%的复合年增长率增长。