最新文章
清华团队突破大模型"记忆力"瓶颈:让AI用"图片记忆法"处理百万字文档

清华团队突破大模型"记忆力"瓶颈:让AI用"图片记忆法"处理百万字文档

清华团队提出Glyph框架,通过将长文本渲染成图像并用视觉-语言模型处理,实现3-4倍文本压缩和4倍推理加速。该方法包含持续预训练、LLM驱动的参数搜索和后训练优化三个阶段,在多个长文本理解基准上达到与领先模型相当的性能,为处理百万级token文本提供了新思路。

人民大学团队破解多模态检索难题:让AI同时理解文字和图片的"混合内容"

人民大学团队破解多模态检索难题:让AI同时理解文字和图片的"混合内容"

中国人民大学团队开发出名为Nyx的AI系统,能够同时理解文字和图片混合内容,解决了传统AI只能分别处理不同类型信息的局限。研究团队构建了包含46741个真实网页片段的NyxQA数据集,采用两阶段训练策略和创新的反馈学习机制。实验显示Nyx在多项任务中显著超越现有方法,为构建更智能的信息检索系统奠定了基础。

HPE扩展AI原生产品,以构建自动驾驶的网络战略重塑IT运营未来
2025-12-08

HPE扩展AI原生产品,以构建自动驾驶的网络战略重塑IT运营未来

在AI时代,客户需要专为AI构建、并以AI为核心的网络,以应对连接设备的快速增长、复杂的环境及日益严峻的安全威胁。通过提供自主、高性能的网络,HPE将以面向未来的解决方案,重塑网络行业格局,重新定义用户体验,并在各类环境中提供稳健且安全的连接。

OpenAI CTO 访谈:扎克伯格为了挖我们的人甚至亲手做汤送到家里,Scaling Law没死,过去两周每天都工作到凌晨一点
2025-12-08

OpenAI CTO 访谈:扎克伯格为了挖我们的人甚至亲手做汤送到家里,Scaling Law没死,过去两周每天都工作到凌晨一点

Core Memory播客主持人Ashley Vance近日与OpenAI首席研究官Mark Chen进行了一场长达一个半小时的对话。这是Chen近年来最公开、最深入的一次访谈,话题覆盖人才争夺战、研究战略、AGI时间表,以及他个人的管理哲学。

人工智能的下一个前沿是人脑接口技术

人工智能的下一个前沿是人脑接口技术

脑机接口技术正快速发展,特别是非侵入性方法取得重大突破。通过EEG、fNIRS、MEG等传感技术结合人工智能,实现思维解码、图像重构等功能。聚焦超声波技术能精确调节大脑深层结构,为神经疾病治疗带来新希望。消费级可穿戴设备已能改善睡眠、缓解抑郁。这些技术将重塑人机交互方式,从医疗应用扩展至认知增强领域。

混合专家模型驱动最智能的前沿 AI 模型,在 NVIDIA Blackwell NVL72 系统上运行速度提升 10 倍
2025-12-08

混合专家模型驱动最智能的前沿 AI 模型,在 NVIDIA Blackwell NVL72 系统上运行速度提升 10 倍

Kimi K2 Thinking、DeepSeek-R1、Mistral Large 3 等模型在 NVIDIA GB200 NVL72 系统上运行速度提升 10 倍。

OpenAI计划下周发布GPT-5.2应对谷歌竞争

OpenAI计划下周发布GPT-5.2应对谷歌竞争

OpenAI首席执行官山姆·阿尔特曼本周宣布进入"红色警戒"状态,要求员工快速响应来自谷歌和Anthropic的竞争压力。据知情人士透露,OpenAI计划下周发布GPT-5.2更新以应对谷歌Gemini 3的挑战。原计划12月下旬发布的GPT-5.2现已提前至12月9日发布,旨在缩小与谷歌上月发布的领先模型Gemini 3之间的差距。

数据中心安全和设计缺口:被忽视的关键问题

数据中心安全和设计缺口:被忽视的关键问题

随着AI热潮兴起,许多数据密集型企业正在管理相当于小型电力公司的中高压设备,但在人员配置、培训和组织架构方面却缺乏电力公司的专业性。这一差距主要体现在安全性和运行时间两个关键领域。传统金属封闭式断路器设备需要频繁的人工维护,增加了安全风险。解决方案是采用电力公司的设计思路:分布式架构、环网供电、就地保护,将中压设备移至户外,通过自动化减少人工干预,并建立标准化设备库存。

Mac应用Vector:Spotlight的智能快速替代工具

Mac应用Vector:Spotlight的智能快速替代工具

Vector是一款Mac上的Spotlight替代应用,专注于速度、隐私和无缝集成。它提供快速应用启动、文件搜索、剪贴板管理等功能。Vector采用设备端模型优化Apple芯片,利用神经引擎实现信息和文件的语义搜索,还集成了日历、天气、计算器和货币转换功能。该应用支持所有搭载Apple芯片的Mac设备,采用按需付费模式,为用户提供比Spotlight更准确快速的搜索体验。

基于CSS和SVG的新型点击劫持攻击技术曝光

基于CSS和SVG的新型点击劫持攻击技术曝光

安全研究员Lyra Rebane发现了一种利用可缩放矢量图形和层叠样式表的新型点击劫持攻击方法。该技术利用SVG滤镜可跨域泄露信息的特性,违反了网络同源策略。攻击者可通过SVG滤镜创建逻辑门来处理网页像素,实现复杂的点击劫持攻击。研究员已成功演示针对Google Docs的概念验证攻击,谷歌为此漏洞报告支付了3133.70美元奖金。

波士顿大学团队破解多模态AI的"偏科"秘密:为什么ChatGPT们在听觉和视觉面前总是"重文轻理"?

波士顿大学团队破解多模态AI的"偏科"秘密:为什么ChatGPT们在听觉和视觉面前总是"重文轻理"?

波士顿大学团队发现当今多模态AI存在严重"偏科"问题:面对冲突的文字、视觉、听觉信息时,AI过分依赖文字而忽视真实感官内容。研究团队构建MMA-Bench测试平台,通过创造视听冲突场景暴露了主流AI模型的脆弱性,并提出模态对齐调优方法,将模型准确率从25%提升至80%,为构建更可靠的多模态AI系统提供重要突破。

UC伯克利团队发现聊天机器人如何"变脸":隐藏在友好对话中的危险信号

UC伯克利团队发现聊天机器人如何"变脸":隐藏在友好对话中的危险信号

UC伯克利研究团队发现了一种名为"双重话语"的AI攻击方法,能够通过简单的词汇替换绕过当前所有主流聊天机器人的安全防护。攻击者只需用无害词汇替换危险词汇,就能让AI在不知不觉中提供危险信息。研究揭示了现有AI安全机制的根本缺陷,迫切需要开发新的防护策略来应对这一威胁。

华沙理工大学发现AI视觉模型新漏洞:一张图片就能让智能助手"犯糊涂"

华沙理工大学发现AI视觉模型新漏洞:一张图片就能让智能助手"犯糊涂"

华沙理工大学研究团队发现了多模态AI系统的严重安全漏洞,通过"对抗性混淆攻击"可让GPT-4、Claude等顶级AI产生错误理解。攻击者仅需在图片中添加特殊干扰信息,就能让AI系统输出荒谬但自信的内容,包括失明、妄想、语言切换等五种混淆模式。这种攻击具备跨模型传播能力,对医疗、自动驾驶等关键应用构成威胁,同时催生了专门阻止AI访问的"对抗性验证码"技术。

Qwen团队发布最强视觉语言模型:一次处理25万字长文档,看图写代码样样精通

Qwen团队发布最强视觉语言模型:一次处理25万字长文档,看图写代码样样精通

阿里巴巴Qwen团队发布的Qwen3-VL是目前最强大的视觉语言模型,支持25万词汇长文档处理,能同时理解文字、图片和视频。该模型采用三大技术创新:交错MRoPE位置编码、DeepStack融合机制和文本时间对齐技术,在多项测试中达到业界领先水平,特别在数学推理、文档理解和代码生成方面表现突出。

中科院团队首次实现AI"主动学习":无需人工标注,让机器像人类一样从海量文本中自己挑选知识

中科院团队首次实现AI"主动学习":无需人工标注,让机器像人类一样从海量文本中自己挑选知识

中科院自动化所团队开发出革命性AI训练框架PretrainZero,首次实现让AI像人类一样主动学习。该系统通过对抗式学习机制,让AI自主从维基百科等通用文本中挑选有价值内容进行深度推理训练,完全无需人工标注数据。在多项推理基准测试中,性能显著提升5-10分,为解决AI推理能力瓶颈提供了全新技术路径,预示着通用人工智能发展的重要突破。

香港中文大学携手美团打造"万能思考家":AI模型首次实现图像视频推理全覆盖

香港中文大学携手美团打造"万能思考家":AI模型首次实现图像视频推理全覆盖

香港中文大学MMLab与美团联合研究团队开发出OneThinker,这是首个能够统一处理图像和视频理解任务的多模态推理模型。该模型通过创新的EMA-GRPO算法解决了多任务训练中的奖励不平衡问题,在包含60万样本的大规模数据集上训练后,在31个基准测试中展现出色性能。OneThinker不仅能处理问答、描述、定位、追踪、分割等多种视觉任务,还具备跨任务知识迁移和零样本泛化能力,为构建通用视觉智能系统提供了重要技术路径。

AI模型学会了看图"动手":字节跳动揭示多模态大模型的"工具使用"革命

AI模型学会了看图"动手":字节跳动揭示多模态大模型的"工具使用"革命

这项由浙江大学与字节跳动BandAI联合完成的研究发现,现有AI模型在处理旋转或翻转图片时准确率骤降80%,为此开发了CodeVision框架,让AI学会像人类一样主动使用图像处理工具。通过"代码即工具"的创新方法,AI能够自动编写代码来旋转、裁剪或增强图片,显著提升了处理现实世界复杂视觉任务的能力。

KAIST研究团队:让AI绘画像人类一样"反思修改",一次生成不满意就改提示词重画

KAIST研究团队:让AI绘画像人类一样"反思修改",一次生成不满意就改提示词重画

KAIST团队开发的PRIS系统通过让AI在生成过程中反思和改进提示词,实现了图像生成7%、视频生成15%的效果提升。该系统包含精密的EFC验证器,能逐项检查生成内容是否符合要求,然后智能调整输入指令。这种"生成-反馈-优化"的循环模式为AI创作工具的未来发展提供了新思路。

Adobe公司推出RELIC:让视频世界能"记住"一切的游戏引擎,20秒超长体验颠覆传统

Adobe公司推出RELIC:让视频世界能"记住"一切的游戏引擎,20秒超长体验颠覆传统

Adobe公司研发的RELIC是一个革命性的AI视频世界模型,能从单张图片生成可实时交互探索的虚拟世界。它解决了AI视频生成中的三大难题:实时响应、长期记忆和精确控制。通过创新的压缩记忆技术和双师制训练架构,RELIC实现了20秒连续生成和空间一致性,在视觉质量和动作准确性上超越现有方案。该技术为未来的交互式虚拟内容创作开辟了新路径。

香港科大发现:AI大模型内部隐藏的"数学密码",无需人类监督就能自己变聪明

香港科大发现:AI大模型内部隐藏的"数学密码",无需人类监督就能自己变聪明

香港科技大学研究团队发现了一种革命性的AI训练方法——通过"稳定秩"这一数学概念直接从模型内部几何结构提取质量信号,无需人工标注即可显著提升AI回答质量。该方法在数学推理等任务上比传统方法提升10-19个百分点,为AI自主学习开辟了全新道路。