OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。
Zoom推出AI Companion 3.0,采用联邦AI架构结合自研模型与OpenAI、Anthropic等第三方大语言模型。新版本具备智能工作流、对话式工作界面等功能,可将会议对话转化为洞察、进度跟踪和文档内容。系统支持加密传输,不使用客户内容训练模型。用户可通过ai.zoom.us访问,或以每月10美元独立购买。
根据Cloudflare 2025年度报告,ChatGPT的爬虫GPTBot是互联网上被阻止最多的机器人,而其最大竞争对手谷歌则是最被允许的爬虫。报告显示,非人类机器人现占互联网流量的56.5%,其中AI服务爬虫增长最快。不同网站对爬虫态度各异,一些希望获得流量,另一些则认为机器人在未给予充分补偿的情况下获取价值。在爬取与推荐比率方面,Anthropic的表现最差,达到10万比1。
英伟达发布三款全新开源权重模型Nemotron,包括Nano、Super和Ultra三个版本,参数量分别为300亿、1000亿和5000亿。这些模型采用混合潜在专家架构,结合Mamba-2和Transformer技术,支持百万token上下文窗口,可在企业硬件上高效运行。英伟达还将开源训练数据和强化学习环境,帮助企业定制化模型。
Meta发布新款SAM Audio模型,能够通过文本、时间段标记和视频视觉选择等多种提示方式分离和编辑音频。该模型可从歌曲中提取特定乐器声音,或从录音中去除背景噪音,大幅减少传统音频编辑的手工操作。Meta声称这是首个统一的多模态音频分离模型,已在Segment Anything平台上线并开放下载。
Dell'Oro集团研究显示,第三季度数据中心存储、服务器和以太网交换机显著增长,推动组件销售同比激增40%。以太网交换机表现突出,收入达到创纪录的80亿美元。在AI热潮推动下,超大规模厂商持续引领数据中心基础设施增长。英伟达、三星和SK海力士在GPU、CPU等半导体领域获得丰厚收益。Dell'Oro预测未来五年服务器和存储系统组件收入将以26%的复合年增长率增长。
Quobyte发布GPU融合存储解决方案,通过整合GPU服务器现有驱动器创建共享存储池,将数据更靠近GPU处理单元。该技术利用GPU服务器中闲置的CPU、内存和NVMe存储资源,消除外部存储阵列需求,降低延迟并提升数据传输速度。系统具备容错能力,可应对GPU节点频繁重启和故障。相比传统架构,该方案可显著降低基础设施成本和功耗,每增加一个GPU节点即可自动扩展存储容量和吞吐量。
艾伦人工智能研究所推出Molmo 2多模态模型系列,在图像理解基础上扩展至视频和多图像理解能力。该系列包含三个变体:8B、4B和2-O 7B模型,分别基于阿里巴巴Qwen 3和研究所自研Olmo模型构建。新模型在保持高效性能的同时显著缩小了参数规模,8B模型在关键图像理解任务上超越了原版720亿参数模型。Molmo 2具备视频定位、多对象追踪和时序推理等创新功能,为物理AI、自动驾驶、机器人等领域提供重要技术支撑。
Adobe更新其AI视频生成应用Firefly,新增支持精确提示词编辑的视频编辑器,并集成Black Forest Labs的FLUX.2和Topaz Astra等第三方模型。新编辑器允许用户通过文本提示编辑视频元素、颜色和摄像机角度,提供时间轴视图便于调整帧、声音等特性。用户可使用Runway的Aleph模型进行具体指令操作,Adobe自有Firefly Video模型支持上传起始帧和参考视频重现摄像机角度。
艾伦人工智能研究所开发的olmOCR 2通过创新的单元测试训练方法,将文档识别准确率提升至82.4%,在处理复杂数学公式、表格和多栏布局方面表现卓越。该系统采用强化学习和合成数据生成技术,实现了完全开源,为全球研究者提供了先进的OCR解决方案,推动了AI技术民主化发展。
苹果公司发布了包含40万张图片修改案例的AI训练数据集Pico-Banana-400K,涵盖35种修图操作类型。该数据集采用严格质量控制,包含成功失败案例对比和多轮修图场景。研究显示AI在全局修改方面表现优秀,但精细操作仍有挑战。这为AI修图技术发展奠定基础,未来将让修图软件更智能易用。
香港大学团队开发了VideoAgentTrek系统,通过自动分析YouTube教程视频训练AI学会电脑操作。该系统使用Video2Action模块从39000个视频中提取152万操作步骤,让AI任务成功率从9.3%提升至15.8%,为AI助手实用化开辟新路径。
微软与布朗大学联合研究发现,通过为AI助手配备18000多种专业工具,可以显著提升其在企业环境中的工作效率。研究团队创建了TheMCPCompany测试环境,使用模型上下文协议(MCP)让AI助手能够直接调用专业工具而非依赖浏览器。实验显示,使用专业工具的AI助手性能提升13.79分,成本降低54%,但在复杂Azure任务中仍面临挑战,揭示了未来智能助手发展的重要方向。
上海交通大学与OPPO研究院联合开发的ColorAgent系统,实现了从被动工具到主动伙伴的突破,通过创新的多智能体架构和个性化交互机制,在手机操作任务中达到77.2%的成功率,创造了该领域新纪录,为未来智能手机助手的发展指明了方向。
卡内基梅隆大学研究团队发现,AI代码助手可能生成表面正确但暗藏安全漏洞的代码补丁。通过"FCV攻击"方法,研究者在12种主流AI助手组合中都发现了这一问题,攻击成功率最高达56.3%。这种威胁只需一次查询即可实现,且攻击通过污染AI内部状态而非改变外在行为来生效,使传统防御方法效果有限。研究挑战了"功能正确即安全"的假设,呼吁重新审视AI代码助手的安全评估标准。
据路透社报道,在成功游说特朗普政府批准向中国销售H200芯片后,英伟达正考虑增加该芯片产量,因为中国企业正急于下订单。H200是英伟达上一代Hopper图形处理器中最强大的产品,专为训练大语言模型设计。商务部上周批准英伟达向中国销售H200GPU,但需上缴25%的销售收入。阿里巴巴和字节跳动等中国企业已联系英伟达商讨大宗订单事宜。
IBM研究人员发布了名为CUGA的开源AI代理,旨在自动化复杂的企业工作流程,任务完成率约为50%。CUGA全称为可配置通用代理,通过多代理编排、API集成和代码生成来实现智能任务自动化。在WebArena和AppWorld基准测试中,CUGA分别获得61.7%的Web任务成功率和48.2%的场景完成率。该系统采用Apache 2.0许可证发布,支持多种开源模型。
生物技术初创公司Chai Discovery宣布完成1.3亿美元B轮融资,估值达13亿美元。本轮融资由General Catalyst和Oak HC/FT领投,OpenAI等多家投资机构参与。该公司专注于利用AI技术加速药物研发,其最新Chai 2模型在定制抗体设计方面取得显著进展,能够设计具有理想药物特性的分子并攻克传统方法难以解决的靶点。
尽管2026年智能手机外观可能变化不大,但内部技术正发生飞跃式进步。AI原生处理器、新型连接技术和先进显示系统正将日常设备转变为具备企业级功能的强大个人平台。这些趋势对企业和消费者同样重要,因为人们携带的手机决定了他们如何访问数据、协作办公、管理工作流程和使用数字服务。
《时代》杂志宣布AI及其架构师为2025年度人物,包括扎克伯格、苏姿丰、马斯克等八位科技领袖。编辑认为今年是AI全面潜力显现的关键年份,这项技术加速了医学研究和生产力提升,让不可能变为可能。从企业高管到教师学生,所有人都在思考AI对生活的颠覆性影响。