Core Memory播客主持人Ashley Vance近日与OpenAI首席研究官Mark Chen进行了一场长达一个半小时的对话。这是Chen近年来最公开、最深入的一次访谈,话题覆盖人才争夺战、研究战略、AGI时间表,以及他个人的管理哲学。
波士顿大学团队发现当今多模态AI存在严重"偏科"问题:面对冲突的文字、视觉、听觉信息时,AI过分依赖文字而忽视真实感官内容。研究团队构建MMA-Bench测试平台,通过创造视听冲突场景暴露了主流AI模型的脆弱性,并提出模态对齐调优方法,将模型准确率从25%提升至80%,为构建更可靠的多模态AI系统提供重要突破。
脑机接口技术正快速发展,特别是非侵入性方法取得重大突破。通过EEG、fNIRS、MEG等传感技术结合人工智能,实现思维解码、图像重构等功能。聚焦超声波技术能精确调节大脑深层结构,为神经疾病治疗带来新希望。消费级可穿戴设备已能改善睡眠、缓解抑郁。这些技术将重塑人机交互方式,从医疗应用扩展至认知增强领域。
UC伯克利研究团队发现了一种名为"双重话语"的AI攻击方法,能够通过简单的词汇替换绕过当前所有主流聊天机器人的安全防护。攻击者只需用无害词汇替换危险词汇,就能让AI在不知不觉中提供危险信息。研究揭示了现有AI安全机制的根本缺陷,迫切需要开发新的防护策略来应对这一威胁。
OpenAI首席执行官山姆·阿尔特曼本周宣布进入"红色警戒"状态,要求员工快速响应来自谷歌和Anthropic的竞争压力。据知情人士透露,OpenAI计划下周发布GPT-5.2更新以应对谷歌Gemini 3的挑战。原计划12月下旬发布的GPT-5.2现已提前至12月9日发布,旨在缩小与谷歌上月发布的领先模型Gemini 3之间的差距。
华沙理工大学研究团队发现了多模态AI系统的严重安全漏洞,通过"对抗性混淆攻击"可让GPT-4、Claude等顶级AI产生错误理解。攻击者仅需在图片中添加特殊干扰信息,就能让AI系统输出荒谬但自信的内容,包括失明、妄想、语言切换等五种混淆模式。这种攻击具备跨模型传播能力,对医疗、自动驾驶等关键应用构成威胁,同时催生了专门阻止AI访问的"对抗性验证码"技术。
随着AI热潮兴起,许多数据密集型企业正在管理相当于小型电力公司的中高压设备,但在人员配置、培训和组织架构方面却缺乏电力公司的专业性。这一差距主要体现在安全性和运行时间两个关键领域。传统金属封闭式断路器设备需要频繁的人工维护,增加了安全风险。解决方案是采用电力公司的设计思路:分布式架构、环网供电、就地保护,将中压设备移至户外,通过自动化减少人工干预,并建立标准化设备库存。
阿里巴巴Qwen团队发布的Qwen3-VL是目前最强大的视觉语言模型,支持25万词汇长文档处理,能同时理解文字、图片和视频。该模型采用三大技术创新:交错MRoPE位置编码、DeepStack融合机制和文本时间对齐技术,在多项测试中达到业界领先水平,特别在数学推理、文档理解和代码生成方面表现突出。
Vector是一款Mac上的Spotlight替代应用,专注于速度、隐私和无缝集成。它提供快速应用启动、文件搜索、剪贴板管理等功能。Vector采用设备端模型优化Apple芯片,利用神经引擎实现信息和文件的语义搜索,还集成了日历、天气、计算器和货币转换功能。该应用支持所有搭载Apple芯片的Mac设备,采用按需付费模式,为用户提供比Spotlight更准确快速的搜索体验。
中科院自动化所团队开发出革命性AI训练框架PretrainZero,首次实现让AI像人类一样主动学习。该系统通过对抗式学习机制,让AI自主从维基百科等通用文本中挑选有价值内容进行深度推理训练,完全无需人工标注数据。在多项推理基准测试中,性能显著提升5-10分,为解决AI推理能力瓶颈提供了全新技术路径,预示着通用人工智能发展的重要突破。
安全研究员Lyra Rebane发现了一种利用可缩放矢量图形和层叠样式表的新型点击劫持攻击方法。该技术利用SVG滤镜可跨域泄露信息的特性,违反了网络同源策略。攻击者可通过SVG滤镜创建逻辑门来处理网页像素,实现复杂的点击劫持攻击。研究员已成功演示针对Google Docs的概念验证攻击,谷歌为此漏洞报告支付了3133.70美元奖金。
香港中文大学MMLab与美团联合研究团队开发出OneThinker,这是首个能够统一处理图像和视频理解任务的多模态推理模型。该模型通过创新的EMA-GRPO算法解决了多任务训练中的奖励不平衡问题,在包含60万样本的大规模数据集上训练后,在31个基准测试中展现出色性能。OneThinker不仅能处理问答、描述、定位、追踪、分割等多种视觉任务,还具备跨任务知识迁移和零样本泛化能力,为构建通用视觉智能系统提供了重要技术路径。