最新文章
大模型推理验证也需要"火眼金睛":上海人工智能实验室团队重新定义长链条思维验证

大模型推理验证也需要"火眼金睛":上海人工智能实验室团队重新定义长链条思维验证

上海人工智能实验室团队开发的OPV系统巧妙结合结果验证和过程验证,通过智能总结复杂推理过程并精准检查关键步骤,显著提升AI推理可靠性,在数学竞赛中准确率提升18个百分点,为AI系统大规模应用提供重要质量保障。

上海人工智能实验室携手多家顶尖院校:让AI像数学奥赛银牌选手一样思考,破解超高难度数学题的秘密

上海人工智能实验室携手多家顶尖院校:让AI像数学奥赛银牌选手一样思考,破解超高难度数学题的秘密

上海人工智能实验室联合多家顶尖院校开发出Intern-S1-MO数学推理智能体,通过多智能体协作和引理库机制突破传统AI的上下文限制,在国际数学奥林匹克2025年取得26分银牌水平成绩,在中国数学奥林匹克正式比赛中获得102分金牌水平表现,为AI复杂推理能力发展开辟了新路径。

西安工程大学联合中科院推出AR3D-R1:用强化学习让AI学会像人类一样"思考"3D建模

西安工程大学联合中科院推出AR3D-R1:用强化学习让AI学会像人类一样"思考"3D建模

西安工程大学联合中科院等机构开发出AR3D-R1系统,首次将强化学习系统性应用于文本生成3D建模。该技术采用分层思维,先构思整体轮廓再精雕细琢,模拟人类艺术家创作过程。研究构建了MME-3DR评测基准和多维评价体系,在性能上显著超越现有模型,为AI创作领域向"思考型"创造者转变提供重要突破。

清华大学与阿里达摩院联手打造MOA:让AI角色扮演不再困难重重的神奇方法

清华大学与阿里达摩院联手打造MOA:让AI角色扮演不再困难重重的神奇方法

清华大学与阿里达摩院合作开发的MOA(多目标对齐)方法,通过动态优化策略和思维增强技术,解决了AI角色扮演中技能冲突的难题。该方法在保持角色知识、语言风格和指令遵循等多维度平衡方面表现出色,8B参数模型在关键测试中超越GPT-4o达21%,为AI角色扮演技术实用化提供了重要突破。

人工大脑学会自我反思:中国人大团队破解AI强化学习训练难题

人工大脑学会自我反思:中国人大团队破解AI强化学习训练难题

中国人民大学团队发现AI强化学习中正面和负面样本对模型训练的不同作用机制。研究表明正面样本让AI专注于已掌握方法,负面样本促进探索新思路,两者缺一不可。基于此发现,团队开发出A3PO训练方法,能精确调节不同样本类型的影响力,显著提升AI推理性能。这项研究为开发更强大可靠的AI系统提供了重要指导。

设备端AI革命:廉价快速安全的人工智能新时代

设备端AI革命:廉价快速安全的人工智能新时代

传统AI依赖云端处理存在延迟和隐私问题。越来越多开发者将AI处理从数据中心转移到手机、笔记本等个人设备上。设备端AI具有三大优势:速度更快,无需等待云端响应;隐私更安全,数据不离开设备;成本更低,无需支付云服务费用。目前iPhone已运行30亿参数的设备端AI模型,谷歌Pixel手机也搭载Gemini Nano模型。未来五年内,随着硬件升级和算法优化,设备端AI将实现物体识别、导航翻译等更复杂功能。

机器人咖啡杯?自动隔热垫?AI研究人员让它变成现实

机器人咖啡杯?自动隔热垫?AI研究人员让它变成现实

卡内基梅隆大学研究人员开发了一项革命性技术,通过摄像头、AI模型和微型轮子,让咖啡杯、订书机等日常物品能够自主移动到需要的位置。这种"智能物品"技术避免了传统人形机器人的复杂性和安全隐患,通过蓝牙微控制器和AI视觉系统,物品能够识别用户行为并预测需求。虽然技术已相对成熟,但隐私保护和安全性仍是推广前需要解决的关键问题。

AI行业2025年迎来现实检验

AI行业2025年迎来现实检验

2025年上半年AI投资热情依然高涨,OpenAI以3000亿美元估值融资400亿美元,Meta、Anthropic等巨头纷纷加大投入。然而下半年行业开始面临现实检验:AI泡沫担忧、用户安全问题、技术进步可持续性质疑等逐渐显现。从模型突破到商业模式探索,从基础设施狂欢到版权纠纷,AI行业正从盲目乐观转向理性审视,2026年将是验证其真正商业价值的关键一年。

AWS欲弥合企业AI概念验证与生产部署之间的鸿沟

AWS欲弥合企业AI概念验证与生产部署之间的鸿沟

IDC研究显示,仅12%的企业AI概念验证项目能成功投入生产。AWS在re:Invent大会上推出多项新功能来解决这一问题,包括Bedrock AgentCore的情景记忆功能、SageMaker AI的无服务器模型定制能力和强化学习微调功能。这些工具旨在简化AI代理从原型到生产的过程,但分析师警告,数据治理和监管合规仍是关键挑战。

Apache Tika关键漏洞影响比预想更严重且涉及组件更广

Apache Tika关键漏洞影响比预想更严重且涉及组件更广

Apache Tika XML文档提取工具存在严重安全漏洞,影响范围比最初认为的更广泛。该漏洞涉及两个相关缺陷:CVE-2025-54988和CVE-2025-66516,后者严重程度达到满分10分。攻击者可通过恶意PDF文件执行XXE注入攻击,获取敏感数据或触发恶意请求。漏洞影响多个Tika组件版本,用户需立即更新至最新版本以修复安全风险。

IBM收购Confluent 强化数据和自动化投资组合

IBM收购Confluent 强化数据和自动化投资组合

IBM宣布将以110亿美元收购云原生企业数据流平台Confluent,预计明年中完成交易。Confluent基于Apache Kafka构建,为企业提供数据源连接和清理服务。分析师认为此次收购填补了IBM watsonx平台在实时数据监控方面的关键空白,使IBM能够与Snowflake等AI原生大数据公司竞争,为企业提供全栈垂直AI平台解决方案。

谷歌推出代码进化智能体,助力企业降低云计算隐性成本

谷歌推出代码进化智能体,助力企业降低云计算隐性成本

企业很少公开承认,但他们的云计算账单中相当大的一部分可以追溯到一个看似平凡的问题:代码效率低下。软件交付平台提供商Harness与AWS联合发布的研究报告显示,在美国和英国接受调查的700名工程领导者和开发者中,52%的人表示财务运营与开发者之间的脱节导致了云基础设施成本的浪费支出。谷歌推出了新的编码代理AlphaEvolve,专注于代码进化而非代码生成,通过算法优化来减少计算浪费和降低成本。

Nvidia押注开放基础设施迎接智能体AI时代的Nemotron 3模型家族

Nvidia押注开放基础设施迎接智能体AI时代的Nemotron 3模型家族

AI智能体必须能够在大型上下文和长期时间段内进行合作、协调和执行,Nvidia表示,这需要一种新型的基础设施,一种开放的基础设施。

微软停用Visual Studio Code的IntelliCode AI代码补全扩展

微软停用Visual Studio Code的IntelliCode AI代码补全扩展

微软正式弃用Visual Studio Code编辑器的IntelliCode AI代码补全扩展,建议C#开发者改用GitHub Copilot Chat对话式AI助手。被弃用的扩展包括IntelliCode、IntelliCode Completions、IntelliCode for C# Dev Kit和IntelliCode API Usage Examples。微软建议开发者卸载相关扩展,继续使用Roslyn内置语言服务器支持或安装GitHub Copilot Chat。弃用后,开发者将不再看到代码补全列表中的星标提示和内联灰色文本建议,这些扩展也将立即停止bug修复和支持服务。

JetBrains发布Kotlin 2.3.0版本更新

JetBrains发布Kotlin 2.3.0版本更新

JetBrains于12月16日正式发布Kotlin 2.3.0版本。新版本引入未使用返回值检查器,支持Java 25字节码生成,增强Swift互操作性,支持原生枚举类和可变参数函数。此外还包括显式后备字段新语法、表达式体返回语句支持、C/Objective-C导入功能进入测试阶段、WebAssembly异常处理等多项实验性功能。

中东2026年科技趋势:AI、网络安全和主权基础设施成为焦点

中东2026年科技趋势:AI、网络安全和主权基础设施成为焦点

到2026年,中东技术市场将由人工智能、网络安全和大规模基础设施投资融合塑造。全球技术支出预计增长10.2%,突破6万亿美元。中东虽增速7.94%略慢,但仍将推动区域市场达到1749亿美元。AI正从辅助工具演变为企业核心平台,与物联网深度融合。网络安全从静态防御转向适应性韧性。主权AI成为战略重点,云扩张持续,但生态系统实力比规模更重要。

风投预测企业AI明年将强劲增长——再次

风投预测企业AI明年将强劲增长——再次

ChatGPT发布三年来,企业AI投资激增但回报有限。MIT调查显示95%企业未从AI投资中获得有意义回报。TechCrunch调研24位企业级风投,他们普遍认为2026年将是企业真正开始大规模采用AI并从中获益的关键年份。投资人预测企业将增加AI预算,专注于定制模型、数据主权等领域,AI代理将成为企业重要组成部分。

Anthropic最新CJE技术:让AI评判AI不再瞎猜,终结LLM评估乱象

Anthropic最新CJE技术:让AI评判AI不再瞎猜,终结LLM评估乱象

这篇论文提出了CJE(因果法官评估)框架,解决了当前LLM评估中的三大致命问题:AI法官偏好倒置、置信区间失效和离线策略评估失败。通过AutoCal-R校准、SIMCal-W权重稳定和OUA不确定性推理,CJE仅用5%的专家标签就达到了99%的排名准确率,成本降低14倍,为AI评估提供了科学可靠的解决方案。

NVIDIA团队让立体视觉AI实现"真正"实时运行:速度提升10倍却不牺牲精度

NVIDIA团队让立体视觉AI实现"真正"实时运行:速度提升10倍却不牺牲精度

NVIDIA团队开发出Fast-FoundationStereo系统,成功解决了立体视觉AI在速度与精度之间的两难选择。通过分而治之的策略,该系统实现了超过10倍的速度提升同时保持高精度,包括知识蒸馏压缩特征提取、神经架构搜索优化成本过滤,以及结构化剪枝精简视差细化。此外,研究团队还构建了包含140万对真实图像的自动伪标注数据集,为立体视觉的实时应用开辟了新道路。

清华大学团队发明智能机器人安全管家:让AI助手变身贴心保镖,再也不担心机器人"手忙脚乱"伤到人

清华大学团队发明智能机器人安全管家:让AI助手变身贴心保镖,再也不担心机器人"手忙脚乱"伤到人

清华大学团队开发了AEGIS智能安全系统,为机器人配备"安全管家"功能,通过视觉识别和数学算法实时避障,无需重训练即可让现有机器人变得更安全。实验显示该系统将碰撞率降低59.16%,任务成功率提升17.25%,为机器人安全进入日常生活铺平道路。