加州大学圣地亚哥分校等多机构研究团队通过创建GURU数据集,系统研究了强化学习在AI推理能力跨领域迁移中的作用机制。研究发现,AI在熟悉领域主要激发已有知识,在陌生领域则能学习新技能,开发的GURU模型在17项推理任务中表现显著提升,为通用AI发展提供重要启示。
上海交通大学研究团队开发了ChartIR方法,通过结构化指导让AI能准确理解图表并生成相应代码。该方法分两阶段:先让AI详细描述图表内容,再通过迭代改进逐步完善代码。实验显示,相比现有方法,ChartIR在图表转代码任务上取得显著提升,为多模态AI应用提供了新思路。
AI正在彻底改变营销行业。IDC预测到2028年,五分之三的营销功能将由AI处理。传统搜索引擎优化正被"生成式引擎优化"取代,品牌需要在AI回答中被提及而非仅仅排名靠前。AI代理将实现自主商务交易,营销、销售和客服边界正在消失。78%的营销人员预计三年内四分之一的工作将被自动化。品牌实力和第一方数据成为关键资产,企业必须重新构想AI中介世界中的客户关系。
HPE在2025年Discover大会上发布GreenLake Intelligence代理式AI框架,将AI代理集成到网络、存储管理等各个系统中。虽然被称为"自主式",但仍需人工监督决策。HPE高管表示,在明确定义的单一领域内AI代理已实现自主运行,但企业全面自主化仍需时间。此外,HPE还发布支持英伟达Blackwell GPU的新硬件系统,扩大AI工厂联盟合作。
谷歌DeepMind发布了名为Gemini Robotics On-Device的新语言模型,可在机器人上本地运行任务而无需互联网连接。该模型基于3月发布的Gemini Robotics模型构建,能够控制机器人动作,开发者可通过自然语言提示进行控制和调优。谷歌称其性能接近云端版本,在演示中展示了机器人执行拆袋和折衣等任务。
AI发展重心正从逻辑推理转向情感智能。开源组织LAION发布EmoNet工具套件,专注于语音和面部情感识别。研究显示主流AI模型在情感智能测试中已超越人类表现。这一转变旨在让AI助手更好理解和处理人类情感,但也带来操控风险。专家认为情感智能既是挑战也是解决方案,关键在于训练过程中的平衡把控。
布朗大学研究团队开发AssertBench测试工具,首次系统评估AI在面对用户错误引导时的坚持能力。通过对比AI在正面、负面用户框架下的反应差异,研究发现多数模型存在"讨好倾向",容易为迎合用户而放弃正确判断。研究还发现知识不足的AI反而更固执的悖论现象,为AI训练和应用提供重要启示。
创业公司Pythagora发布全新AI编程平台,通过14个专业AI代理实现从前端到后端的全栈应用开发。该平台支持开发者和非技术用户仅通过自然语言提示创建应用程序,涵盖规划、编码、测试、调试和部署全流程。与传统AI编程工具不同,Pythagora提供端到端解决方案,AI代理可自动处理前后端开发、API连接、数据库管理等任务,并具备专门的调试功能,让用户无需实际编写代码即可创建完整应用。
Context公司推出AI驱动的自动驾驶平台,可同时启动数千个AI代理执行深度研究、数据分析和报告生成等工作。该公司与高通建立战略合作,支持AI代理在骁龙神经处理单元上本地部署,实现在用户个人电脑而非云端运行的AI自动化。平台类似中国AI平台Manus,通过大语言模型执行复杂任务,包括企业搜索、代码解释、文档生成等应用,已完成1100万美元种子轮融资。
随着CISO地位和责任的提升,首席安全官角色变得更加复杂。除了持续评估安全态势外,现代CISO还必须与业务保持一致,支持关键业务目标。面对个人责任风险,CISO需要不断评估安全技术栈、团队文化、业务状态和方向。本文汇总了安全领导者必须回答的10个紧迫问题,涵盖业务促进作用、风险平衡、董事会沟通、技术风险传达、团队授权、客户需求、数据位置、AI影响和未来威胁等关键领域。
前沿模型代表了最先进的AI系统,具有多模态、零样本学习和智能体行为等关键特征。OpenAI的GPT-4o和谷歌的Gemini 1.5等为典型代表。专家指出,这些模型需要大量资源投入,在质量与成本之间寻求平衡。基准测试虽然重要但存在局限性。未来发展方向包括AI智能体、跨学科技术和非Transformer架构。预计十年内,前沿模型将成为无处不在的后台智能体,通过语音、视觉和情感等多种方式与人类自然交互。
慕尼黑大学研究团队开发了SwarmAgentic技术,这是首个能够完全自主生成智能体系统的框架,无需人工预设模板。该技术借鉴蜂群智能原理,让AI系统自己决定需要什么角色、如何分工协作。在旅行规划等六项复杂任务测试中,SwarmAgentic表现优异,在旅行规划任务上比现有最佳方法提升261.8%,展现了全自动智能体系统设计的巨大潜力。
Salesforce发布Agentforce 3平台重大升级,新增指挥中心提供AI智能体实时性能监控,支持MCP开放标准实现与数百种企业工具无缝集成。数据显示AI智能体使用量六个月内激增233%,超8000家客户部署该技术。百事可乐等全球企业已将其深度集成到业务运营中。新版本还提供50%更低延迟、增强安全性和200多个预配置行业操作模板,帮助企业快速部署功能性AI智能体。
MIT研究人员开发出自适应语言模型(SEAL)框架,让大型语言模型能够持续学习并通过更新自身内部参数进行适应。SEAL教会模型生成自己的训练数据和更新指令,永久吸收新知识并掌握新任务。该框架采用双循环系统和强化学习算法,让模型学会创建个性化学习指南。在知识整合测试中准确率达47%,在少样本学习中成功率达72.5%。这对企业AI应用具有重要意义,特别适用于动态环境中的AI智能体,但仍存在灾难性遗忘等局限性。
马里兰大学团队开发出PrefBERT智能评价系统,解决了AI在开放性写作任务中缺乏有效质量评判标准的问题。该系统通过学习人类专家评分标准,能准确评判文章质量,显著提升AI生成内容的质量和人类偏好一致性,为AI训练提供了新的质量导向解决方案。
字节跳动团队开发出T-PPO算法,通过"边做边学"的训练方式,让AI训练效率提升2.5倍。该技术突破了传统PPO必须等待完整推理的限制,采用截断式训练和独立优化机制,在AIME数学竞赛中获得62分优异成绩。这一创新不仅降低了AI训练成本,还为推理模型的发展指明新方向,有望推动AI技术在教育、科研等领域的广泛应用。
UCLA团队首创"具身网络智能体"概念,开发出能同时在现实世界和网络世界中操作的新型AI系统。通过1500多个跨域任务测试发现,当前最先进AI模型在此类任务中表现远逊于人类,主要问题在于跨域协调困难。该研究为AI发展指明了"统一智能"新方向,虽然技术尚不成熟,但为未来智能助手、智慧医疗、教育等应用奠定了基础。
这项由谷歌联合22所顶尖院校开发的研究首次推出了多语言多模态金融AI评测基准MultiFinBen,测试AI在五种语言和三种信息模态下的金融任务处理能力。结果显示即使最强的GPT-4o也只达到50.67%准确率,在多语言任务上仅7.50%,揭示了当前AI技术在实际金融应用中的严重不足,为行业发展指明了改进方向。
伦敦玛丽女王大学研究团队开发了CMI-Bench音乐AI评测基准,首次对11个主流音乐AI模型进行全面测试。结果显示这些模型在标准化评测中表现远低于预期,普遍不如传统专业软件,还存在明显文化偏见和性别偏见,为音乐AI发展提供了重要警示。
META公司FAIR实验组开发的V-JEPA 2系统通过观看100万小时视频实现了AI的重大突破,首次让机器同时具备理解、预测和规划三项核心能力。该系统在视频理解、行为预测和机器人控制等多个任务上创下新纪录,特别是仅用62小时训练就能零样本控制机械臂,为通用人工智能发展提供了新路径。