最新文章
F1联合亚马逊云科技,让车迷化身赛车策略大师

F1联合亚马逊云科技,让车迷化身赛车策略大师

在世界一级方程式锦标赛(F1)成立75周年之际,F1与亚马逊云科技让车迷拥有了全新的数字互动体验,联合推出的实时赛道(Real-Time Race Track)利用Amazon Bedrock中新一代前沿模型Amazon Nova的AI分析能力,能够让车迷设计出原创的专属赛道。

蓝牙出新招,连接未来,比你想象更快
2025-05-26

蓝牙出新招,连接未来,比你想象更快

时隔五年,蓝牙亚洲大会再次回到深圳,释放出清晰信号:蓝牙技术联盟正加速本地化运营、技术标准制定与场景创新。

赛美特“AI智造”生态体系亮相,四大方向赋能智能制造
2025-05-26

赛美特“AI智造”生态体系亮相,四大方向赋能智能制造

5月23日,由国产智能工业软件领军企业赛美特主办的“AI无界·智联未来Al Defines the New Fab”AI制造应用峰会在上海成功召开。

数字孪生:从碎片镜像到全维系统

数字孪生:从碎片镜像到全维系统

西门子重新定义数字孪生的价值坐标系。

一年一度开发者盛会,鲲鹏昇腾开发者大会2025成功举办
2025-05-26

一年一度开发者盛会,鲲鹏昇腾开发者大会2025成功举办

2025年5月23日, 以“心怀挚爱,共绽光芒”为主题的鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。

2025-05-26

2025第二届AIGC上海开发者大会成功举办:MCP引领Agent互联网新时代暨物理AI模型新篇章

2025年5月24号下午,为了更好促进中国AIGC开发者拥抱MCP带来的红利,带领更多的开发者投身到具身智能生态发展中,AIGCLINK联合张江集团、中国人工智能学会智工委、至顶科技、中关村超互联新基建联盟等,在模力社区举办了2025年第二届AIGC上海开发者大会,邀请了MCP生态的核心参与者、具身智能领域核心参与者一起共谈未来,为Agent互联网和具身智能行业的发展指明方向。

Meta新增650兆瓦太阳能 助力其AI战略推进

Meta新增650兆瓦太阳能 助力其AI战略推进

Meta近期与AES签订协议,在德州和堪萨斯州共部署650兆瓦太阳能,用以为不断扩展的AI数据中心供电,此举彰显太阳能低成本快速布局优势。

百度的 AI 云业务腾飞——但风险在累积

百度的 AI 云业务腾飞——但风险在累积

百度虽凭借 AI 云实现高速发展,但广告收入下滑、国内降价竞争和国际贸易风险等因素不断叠加,前景充满不确定性。

OpenAI 将 Operator 更新至 o3,使每月200美元的 ChatGPT Pro 订阅更具吸引力

OpenAI 将 Operator 更新至 o3,使每月200美元的 ChatGPT Pro 订阅更具吸引力

本文介绍OpenAI将ChatGPT Pro内Operator工具升级为o3模型,新系统提升了网页任务执行的准确性与安全防护,为企业自动化操作带来显著优势,同时相较于Google服务更具价格吸引力。

AGI 可能会继承当今 AI 已展示的勒索和敲诈技能

AGI 可能会继承当今 AI 已展示的勒索和敲诈技能

文章讨论现有 AI 可能实施勒索敲诈,并预示未来 AGI 会继承这种行为,其破坏性可能会在全球范围内放大。

Microsoft Notepad 的最新 AI 技能为您生成定制文本

Microsoft Notepad 的最新 AI 技能为您生成定制文本

新版 Notepad 借助 Copilot AI 可根据提示生成定制文本,并支持后续调整;同时,Paint 和 Snipping Tool 也获得 AI 升级,实现贴纸制作与自动截图裁剪。

ByteDance Seed研究团队发布BAGEL:探索统一多模态预训练中的涌现能力

ByteDance Seed研究团队发布BAGEL:探索统一多模态预训练中的涌现能力

ByteDance Seed团队发布的BAGEL是一个突破性开源基础模型,采用混合变换器专家架构,能同时执行多模态理解和生成任务。研究显示,随着训练数据和模型规模增加,BAGEL展现"涌现能力"—从基础理解和生成,到复杂编辑和自由形式视觉操作,再到长上下文推理,呈现能力阶梯式提升。模型在标准基准测试中超越现有开源统一模型,并显示出强大的世界建模能力,如世界导航和视频生成。研究团队开源了代码和模型检查点,为多模态AI研究开辟新方向。

推理模型更懂如何表达自信:大型语言模型如何通过慢思考实现更准确的自我评估

推理模型更懂如何表达自信:大型语言模型如何通过慢思考实现更准确的自我评估

这项研究证明推理模型(使用链式思考的大语言模型)不仅在解决问题上表现优异,还能更准确地表达其确信度。研究人员在六个数据集上评估了六种推理模型,发现它们在33/36种测试设置中比非推理模型表现更好。深入分析揭示这一优势来源于"慢思考"行为,如探索替代方案和回溯,使模型能够在推理过程中动态调整确信度。有趣的是,非推理模型在通过少样本学习引导进行慢思考时也能获得类似改进,证明这一能力源于思考方式而非模型结构。

突破数学题的天花板:通用推理大模型如何实现全领域思维能力提升

突破数学题的天花板:通用推理大模型如何实现全领域思维能力提升

这项研究突破了大语言模型推理能力主要局限于数学和编程领域的限制,提出了"General-Reasoner"训练方法,使模型能够在物理、化学、金融等多领域展现高水平推理能力。研究团队构建了包含23万个跨学科问题的高质量数据集,并开发了基于生成式模型的答案验证器,取代传统规则验证方法。实验证明,该方法在MMLU-Pro等12个基准测试中表现优异,成功实现了全领域的推理能力提升,同时保持了在数学任务上的卓越表现。

解码混合语言对话:CS-Sum基准测试揭示大型语言模型的理解局限

解码混合语言对话:CS-Sum基准测试揭示大型语言模型的理解局限

这篇研究来自新加坡南洋理工大学,首次建立了覆盖英语-汉语、英语-泰米尔语和英语-马来语的代码切换对话摘要基准测试CS-Sum。研究评估了10个大型语言模型,发现即使最先进的模型在处理混合语言时也存在严重局限,主要表现为忽略非英语内容、翻译不当和说话者错误归属三类问题。研究揭示仅靠模型扩大或微调无法解决这一问题,强调需要在预训练阶段就加入充分的代码切换数据。

揭开真相:现有长视频理解评估其实靠猜?多伦多大学团队推出更公平的VideoEval-Pro评测基准

揭开真相:现有长视频理解评估其实靠猜?多伦多大学团队推出更公平的VideoEval-Pro评测基准

这项研究揭示了现有长视频理解评估基准的严重缺陷:过度依赖多选题导致结果膨胀,且许多问题存在先验偏好使模型无需真正理解视频就能作答。针对这些问题,多伦多大学团队开发了VIDEOEVAL-PRO基准,采用开放式短答案形式,真正要求理解整个视频。通过评估21个专有和开源模型,研究发现:视频模型在开放式问题上的表现比多选题下降超过25%,且多选题高分并不意味着开放式题高分。与其他基准不同,VIDEOEVAL-PRO随输入帧数增加持续提升性能,提供了更可靠的长视频理解能力评估方法。

隐私保护的大模型压缩新思路:香港大学等机构推出FedPrLLM联邦修剪框架

隐私保护的大模型压缩新思路:香港大学等机构推出FedPrLLM联邦修剪框架

这项由香港大学等机构合作开发的FedPrLLM框架,首次将联邦学习与大语言模型修剪技术结合,解决了隐私敏感领域无法共享数据进行模型压缩的难题。研究表明,采用层比较的一次性修剪策略且不进行权重缩放,可以在保护数据隐私的同时高效压缩大型语言模型,为医疗、金融等对隐私保护要求高的行业部署轻量级大语言模型提供了新思路。

SSR:通过推理引导式空间理解增强视觉语言模型的深度感知能力

SSR:通过推理引导式空间理解增强视觉语言模型的深度感知能力

SSR是西湖大学研究团队开发的创新框架,通过引入深度感知增强视觉语言模型的空间理解能力。该方法将原始深度数据转换为结构化的推理语言,作为中间表示,显著提升空间推理能力。研究团队还创建了包含超过百万级的SSR-COT数据集和SSRBENCH评估基准。实验表明,SSR无需重新训练现有模型即可提供显著性能提升,在空间任务上最高改进22.5个百分点,为机器人和计算机视觉领域开创了新的可能性。

别只在需要时思考,这些混合推理大模型让思维更高效

别只在需要时思考,这些混合推理大模型让思维更高效

微软研究院与北京大学的团队开发出全新的大型混合推理模型(LHRMs),解决了大型推理模型的过度思考问题。这种创新模型能够像人类一样,根据问题复杂度自动决定是否需要深入思考。研究团队设计了两阶段训练方法,包括混合微调和混合群体策略优化,使模型学会智能切换思考模式。实验证明,LHRMs不仅在数学、编程等推理任务上表现出色,还避免了对简单问题的过度思考,大幅提升了响应效率和用户体验。这项研究为构建更接近人类认知模式的AI系统提供了新思路。

谁才是真正的好老师?北科研团队比较不同推理蒸馏源对大语言模型影响

谁才是真正的好老师?北科研团队比较不同推理蒸馏源对大语言模型影响

这篇研究探讨了大语言模型知识蒸馏过程中教师模型选择的重要性。北科a-m-team团队从三个顶级模型(AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1)收集了189万个问题的推理答案,分析发现AM-Thinking-v1生成的数据表现出更多样的令牌长度分布和更低的困惑度。使用这些数据训练的学生模型在AIME2024(84.3分)、AIME2025(72.2分)、MATH500(98.4分)和LiveCodeBench(65.9分)等基准测试中,AM蒸馏模型始终表现最佳,并展现出根据任务难度动态调整输出长度的能力。