谷歌正在为其Gemini应用缓慢增加定制化和个性化功能,以追赶Anthropic和OpenAI。新功能"个人上下文"将默认启用,允许从过往对话中学习并提供个性化回应。同时推出临时聊天功能和额外数据控制选项。然而,谷歌用户无法编辑或删除偏好设置,这与竞争对手形成差异。该功能首先在部分国家的Gemini 2.5 Pro上推出。
德国软件巨头SAP将其商务套件定位为企业AI成功的必要基础,认为数据碎片化是最大障碍。该套件集成销售、财务等业务应用,直接挑战"最佳组合"模式。SAP全球商务套件负责人表示,碎片化应用产生碎片化数据,失去业务语境,使企业80%时间用于管理应用和数据。SAP推广AI助手Joule作为用户交互中心,并开发各种AI代理。澳洲多家客户分享实践经验,南澳电力网络利用AI改善资产管理,西格玛医疗自动化HR流程节省70%时间。
随着OpenAI发布ChatGPT-5,世界距离通用超级人工智能更近一步。文章探讨了超级智能普及后可能带来的深层社会影响,特别是对人类核心身份认同的冲击。作者担心,当AI助手通过可穿戴设备实时提供"增强心智"服务时,人类可能过度依赖AI建议,失去独立思考能力。这种技术虽然能让人感觉更强大,但也可能削弱人类的自信心和主观能动性,模糊人机交互的界限。
AI2发布开源MolmoAct 7B模型,具备三维空间推理能力,挑战英伟达和谷歌在物理AI领域的地位。该模型能让机器人理解物理世界、规划空间占用并执行动作,任务成功率达72.1%,超越谷歌、微软和英伟达的模型。与传统视觉-语言-动作模型不同,MolmoAct通过空间感知令牌实现真正的3D理解,可适应不同机器人形态。
斯坦福大学李飞飞教授在拉斯维加斯Ai4会议上表达了与Geoffrey Hinton截然不同的AI发展观点。她认为AI应该是人类潜能的合作伙伴,而非需要具备母性保护本能的超级智能体。李飞飞强调,共情、好奇心和责任感应该驱动AI发展,人类决策应始终处于核心地位。她通过World Labs致力于开发空间智能技术,旨在创建理解和构建三维空间的AI系统,服务于教育、医疗等领域,让AI成为促进人类创造力和学习的工具。
SonarSource研究发现,尽管最新大语言模型在编程基准测试中表现更佳,但同时引入了更多严重漏洞和安全风险。研究测试了Claude、GPT-4o、Llama等模型的4400多个Java编程任务,发现所有模型都存在系统性安全意识缺陷。其中Llama 3.2 90B有超过70%的漏洞被评为最高危险等级,Claude Sonnet 4虽功能测试得分最高,但严重漏洞比例比前代增加93%。研究建议对AI生成代码采用"信任但验证"方法。
随着AI技术兴起,CIO们需要重新审视数据基础设施的重要性。调查显示,研究和实施数据驱动的AI项目已成为IT部门的首要任务。成功的关键在于构建可靠且可扩展的数据基础,而非简单地将所有服务迁移到云端。数字化领导者必须设计灵活的架构以应对快速变化的技术环境。多家企业通过统一数据平台实现了信息整合,为AI应用奠定了坚实基础。
Liquid AI发布了新一代视觉语言基础模型LFM2-VL,专为智能手机、笔记本电脑和嵌入式系统等设备高效部署而设计。该模型基于独特的LIV系统架构,GPU推理速度比同类模型快2倍,同时保持竞争性能。提供450M和1.6B两个版本,支持512×512原生分辨率图像处理,采用模块化架构结合语言模型和视觉编码器。模型已在Hugging Face平台开源发布。
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。
这项由浙江大学等多家机构联合完成的大规模调研首次系统性梳理了操作系统智能体这一前沿领域,全面分析了基于多模态大语言模型的AI助手如何像人类一样操作电脑手机。研究涵盖了技术架构、训练方法、评估体系和发展挑战,为实现类似贾维斯的智能数字助手提供了完整的技术路线图。
Google Photos推出快速修复方案,允许用户重新启用经典搜索功能,替代此前推出的"Ask Photos" Gemini AI搜索工具。这一调整回应了用户对传统搜索方式的需求,为那些更偏好直接关键词搜索而非AI对话式查询的用户提供了选择。
浙江大学和阿里巴巴团队开发Memp框架,为智能体构建程序性记忆能力。该系统通过构建、检索、更新三个模块,让智能体从过往经验中学习,显著提升任务成功率50%,执行效率提升一半。更重要的是,强模型的记忆可传递给弱模型,实现经验共享。这项研究为构建具有持续学习能力的智能系统开辟新路径。
清华大学和智谱AI联合发布GLM-4.5系列模型,这是首个在推理、编程和智能代理三大核心领域同时达到顶尖水平的开源AI模型。GLM-4.5拥有355B参数但仅激活32B,创新的混合推理模式能根据任务复杂度自动选择思考深度。该模型在12项基准测试中排名第三,智能代理任务排名第二,已完全开源供研究使用。
浙江大学联合多家机构提出AEPO方法,通过多答案生成和自适应探索奖励机制,显著提升AI在图形界面中的元素识别准确性。该技术让AI能同时考虑多个候选答案并科学评估,解决了传统方法容易陷入错误自信的问题,在五个基准测试中均达到业界领先水平,为智能GUI助手的实际应用奠定了重要基础。
上海交通大学团队开发的ASAP方法通过"锚点引导"和"首词惊喜度"两阶段技术,成功解决了AI推理模型内容冗长问题。该方法在保持准确性的同时,将推理速度提升43.5%,生成内容减少23.5%,为AI推理优化开辟了新方向,代表了从追求模型规模向追求效率质量平衡的重要转变。
厦门大学研究团队开发出UI-AGILE框架,通过"简单思考"策略、连续评分奖励和分解定位技术,让人工智能学会像人类一样精准操作电脑界面。该方法在专业测试中将定位准确率提升23%,仅需9000个样本就能高效训练。这项突破性技术具有强通用性,可直接提升现有AI系统性能,将很快应用于智能助手、自动化工具等日常软件中,为用户带来更便捷的人机交互体验。