人工智能文章列表第31页-至顶网频道

2025-10-09

苹果公司首次发布统一多模态AI模型Manzano：一个模型既能看懂图片又能画出图片

苹果公司发布突破性AI模型Manzano，首次实现单一模型同时具备图像理解和生成能力。该模型采用创新的混合视觉标记器设计，通过统一的语义空间有效解决了传统多模态模型中理解与生成任务的冲突问题。在多项基准测试中，Manzano不仅达到了专门化模型的性能水平，还展现出优异的规模化效应和实用性。

小米研究院推出革命性GUI自动化框架：让AI像人一样"眨眼-思考-执行"操作界面

小米研究院推出的BTL-UI是一个革命性的GUI智能代理框架，通过模拟人类"眨眼-思考-执行"的认知过程，让AI能够像人类一样自然地操作各种应用界面。该技术在多个基准测试中实现了显著性能提升，为未来的人机交互和自动化应用奠定了重要基础。

土耳其AI如何识破聊天机器人的"胡说八道"？伊斯坦布尔Newmind AI团队首创检测系统

土耳其伊斯坦布尔Newmind AI团队开发出首个专门针对土耳其语的AI幻觉检测系统Turk-LettuceDetect，能够逐字识别AI生成内容中的虚假信息。该系统使用三种不同的AI模型，在包含17790个样本的数据集上训练，最佳模型达到72.66%的检测准确率。这项研究填补了土耳其语AI安全检测的空白，为8000万土耳其语使用者提供了更可靠的AI交互体验。

阿里巴巴Qwen团队打造史上最强多模态AI：一个模型搞定文字、语音、图像和视频，实时对话延迟仅234毫秒

阿里巴巴Qwen团队发布的Qwen3-Omni实现了AI领域的重大突破，首次让单一模型在文字、语音、图像、视频处理上都达到专业水平，无任何性能损失。该系统支持119种文字语言，实时对话延迟仅234毫秒，在36项测试中32项达到开源最佳。采用创新的"思考者-表达者"架构和多码本流式生成技术，为真正智能的多模态AI助手奠定了基础。

Scale AI团队推出SWE-Bench Pro：AI编程助手能否胜任真正的企业级软件开发挑战？

Scale AI团队推出SWE-Bench Pro测试平台，专门评估AI编程助手在真实企业级软件开发中的表现。研究发现，即使是最先进的GPT-5和Claude模型，成功率也仅有23%左右，远低于在传统测试中70%的表现。该测试平台包含1865个来自真实企业的复杂编程任务，要求修改多个文件和大量代码，为AI编程能力提供了更严格的现实检验。

图像编辑智能评分员：微软团队开发AI助手彻底改变图像修改质量评估

微软团队开发的EdiVal-Agent是首个针对AI图像编辑的自动化评估系统，能像专业评委一样从指令遵循、内容一致性和视觉质量三维度评分。该系统与人类评审一致性达81.3%，测试发现Nano Banana表现最均衡，GPT-Image-1指令遵循最佳但一致性不足，大多数模型在数量变化任务中成功率低于25%。

Meta推出RecoWorld：让推荐系统在虚拟世界里"练手"，就像飞行员在模拟器中学习一样

Meta研究团队推出RecoWorld，这是首个专为智能推荐系统打造的虚拟训练环境。该系统通过虚拟用户与推荐系统的多轮对话互动，让算法在安全环境中学习理解和响应用户指令。RecoWorld支持文本、多模态和语义编码三种内容处理方式，能够模拟真实的用户行为和社交互动，为推荐系统的训练和评估提供了全新的解决方案，有望显著改善未来的个性化推荐体验。

大语言模型评测中的"空格陷阱"：一个看似无关紧要的符号竟能让AI模型排名彻底颠倒

德国美因茨约翰内斯·古腾堡大学研究团队发现，在AI大语言模型的多选题评测中，"Answer:"后空格的处理方式竟能导致11%的准确率差异和模型排名颠倒。通过对15个主流模型的详尽测试，研究证实采用"空格+字母"的答案格式比单纯字母格式表现更优，还能显著改善模型校准度。这一发现揭示了AI评测中被忽视的技术细节可能产生巨大影响，呼吁建立更标准化透明的评测协议。

开发者与AI助手的真实对话：当代码生成遇上现实编程场景

这项研究分析了82,845个真实开发者与AI助手的编程对话，发现AI回复比开发者提问长14倍，68%为多轮对话。Web开发和机器学习是最热门话题。AI代码质量存在问题：Python代码83.4%命名不规范，JavaScript代码75.3%有未定义变量。研究为改进AI编程助手提供了重要参考。

OpenAI发布Sora 2模型并推出视频社交应用挑战TikTok

OpenAI发布了音视频生成模型Sora 2，同时推出配套社交应用Sora，用户可生成包含自己的视频并在类似TikTok的信息流中分享。Sora 2在物理定律遵循方面有显著改进，视频更加真实。应用提供"客串"功能，允许用户将自己植入生成场景中，并可与朋友分享形象使用权限。该iOS应用目前在美加地区采用邀请制，ChatGPT Pro用户可直接体验。

大语言模型已遭遇瓶颈，是时候重新定义智能了吗？

大语言模型和生成式AI自诞生以来问题频发，从推理模型表现不佳到AI幻觉现象，再到版权诉讼，这些都表明当前技术路径可能并非通往真正智能的正确道路。专家认为，仅靠增加数据和算力的扩展模式已显现边际效应递减，无法实现通用人工智能。研究者提出智能应包含统计、结构、推理和目标四个层次的协调，并强调时间因果性的重要性。面对LLM技术局限，业界开始探索神经符号AI等替代方案。

微软发布Microsoft 365新功能，知识工作者可通过文本提示生成复杂的Word文档或Excel电子表格。该功能包含两个产品：基于GPT-5的代理模式和基于Anthropic模型的Office代理。代理模式能进行多步骤工作规划和验证循环，目前仅支持Web版本。微软将此称为"氛围办公"，类似于氛围编程概念。不过在电子表格应用中存在风险，代理模式准确率为57.2%，而人类为71.3%，需要谨慎使用。

人工智能

稀疏注意力

成本优化

2025-10-09

DeepSeek发布稀疏注意力技术降低AI推理成本

DeepSeek发布实验版本DeepSeek-V3.2-Exp，引入"稀疏注意力"技术来解决长对话处理中的计算瓶颈。该技术通过选择性处理词汇关系而非全量计算，将API成本降低50%。稀疏注意力并非新概念，OpenAI早在2019年就使用过类似技术，但DeepSeek声称实现了"细粒度稀疏注意力"的突破。基准测试显示该模型性能与前代相当，且开源发布。

人工智能

多模态界面

企业级平台

2025-10-09

ServiceNow押注AI优先界面将定义企业AI未来

ServiceNow发布AI Experience多模态用户界面，主张界面而非模型将决定企业AI竞争胜负。该平台将AI代理、数据结构和工作流程整合到单一环境中，支持语音、图像和文本交互。公司已实现超3.5亿美元节省，AI代理可自动化89%支持工作流程。ServiceNow直接挑战微软和Salesforce，通过开放性集成和AI控制塔提供治理优势，力图成为企业AI的前门入口。

人工智能

液冷技术

热管理优化

2025-10-09

AI时代数据中心液冷技术变革与热管理策略演进

AI技术发展推动数据中心基础设施重构，新一代AI加速器使机架密度超过100千瓦，部分高达600千瓦，传统冷却系统面临极限。液体冷却市场年复合增长率达20%，成为增长最快的数据中心冷却细分领域。这不仅是冷却升级，更是架构演进。支持高密度AI工作负载需要从设施设计、散热、管道到配电和机架集成的全面重新思考，热管理已成为跨学科挑战。

人工智能

基础设施架构

标准化蓝图

2025-10-09

Zayo与Equinix联合发布AI基础设施架构框架

为应对AI基础设施连接缺乏标准的问题，通信基础设施提供商Zayo与数字基础设施公司Equinix联合发布业界首个AI基础设施蓝图。该框架明确定义了高容量网络、互连枢纽、训练和推理数据中心的角色及连接模式。随着AI驱动的带宽需求预计到2030年增长六倍，该蓝图为新云服务商和AI提供商提供可扩展的私有连接指导。

英特尔

人工智能

大模型

2025-09-30

数据中心的智算挑战，英特尔要如何应对？

阿里云第九代企业级ECS实例g9i不到150天服务超2万家客户，现在已有接近3万用户。

人工智能

神经符号推理

数学证明自动化

2025-09-30

谷歌DeepMind揭秘：AI如何像侦探破案一样解决数学难题

谷歌DeepMind开发的AlphaProof和AlphaGeometry 2系统实现了AI数学推理的重大突破，采用神经符号方法让AI像人类数学家一样思考。两个系统分工合作，在2024年国际数学奥林匹克竞赛中获得满分，不仅能解决复杂数学问题，还能提供严格的证明过程。这项技术将革命性地改变数学教育、科学研究和各行业应用。

人工智能

视频生成

社交平台

2025-09-30

OpenAI将发布类似TikTok的社交应用，搭配Sora 2视频模型

据报道，OpenAI正准备发布一款由即将推出的Sora 2视频模型驱动的独立社交应用。该应用与TikTok高度相似，采用垂直视频信息流和滑动滚动导航。不过，该应用仅支持AI生成的内容，用户无法从手机相册上传照片或视频。Sora 2在应用内生成的视频时长限制为10秒或更短。应用还包含身份验证工具，允许用户使用自己的肖像生成视频，其他用户可以标记并在重新混合视频时使用他们的肖像。

人工智能

自然语言处理

智能办公

2025-09-30

微软推出Office智能体模式让用户"氛围办公"

微软发布全新Agent Mode功能，支持Excel和Word中的AI代理协作。该模式可自动生成高质量文档、电子表格和演示文稿，让非专业用户也能使用复杂功能。Excel代理模式在准确性测试中达到57.2%，远超原版Copilot的20%。Word代理模式则专注于内容起草和格式优化，让写作变成对话式体验。目前已向商业用户和个人订阅用户开放。

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: