最新文章
成熟的英国金融科技公司增加技术与网络安全招聘

成熟的英国金融科技公司增加技术与网络安全招聘

英国金融科技公司在转型成熟后正大力招聘技术、网络安全及风控人才,以应对产品扩展、系统升级和日益严格的监管要求,同时反映出投资收缩趋势。

针对 MATLAB 开发商 MathWorks 的勒索软件攻击 —— 许可中心仍处封锁状态

针对 MATLAB 开发商 MathWorks 的勒索软件攻击 —— 许可中心仍处封锁状态

MathWorks 遭受勒索软件攻击,导致旗下旗舰产品 MATLAB 及相关服务中断,授权中心无法验证许可证,部分用户甚至转而采取破解应急。目前大部分功能已恢复,但安全问题仍待解决。

软件工程领导者如何构建和交付软件以推动业务成果

软件工程领导者如何构建和交付软件以推动业务成果

本文章探讨软件工程领导者如何设计、构建与交付高价值软件,聚焦客户与业务目标,通过评估、规划、提升安全和质量,并利用平台工程实现规模效应。

Java如何彻底改变开发领域:代码三十周年之际

Java如何彻底改变开发领域:代码三十周年之际

Java自30年前诞生以来,通过“一次编写,到处运行”的理念重塑开发生态,并成为企业核心技术,历经风雨仍值得信赖。

外包信心:下一个大热 AI 趋势?

外包信心:下一个大热 AI 趋势?

文章探讨了借助 AI 工具实现各类场景增强(如影视中 EDITH 与现实中的 Cluely AI),提升工作与社交表现,同时引发对伦理风险的讨论。

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制,实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问,加速大规模模型推理。

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

研究表明,科技企业正利用AI减少应届生招聘,同时增加有经验人才的引进;掌握AI技能将成为新卒求职的关键。

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

Salesforce以80亿美元收购Informatica,整合双方数据管理与agentic AI优势,构建企业统一数据平台,加速低代码AI方案落地。

OnePlus 全力投身 AI 革新

OnePlus 全力投身 AI 革新

OnePlus 推出多项 AI 功能,包括语音记录、翻译、智能拍照及屏幕录制,并通过全新 Plus Key 整合这些体验,将率先在印度市场的 OnePlus 13 系列手机中应用。

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

Mistral AI 推出新专有 API,利用 Mistral Medium 3 模型快速集成自主生成 AI 代理。平台内置 Python 执行、图像生成、文档库 ( RAG ) 及网络搜索等功能,支持多代理协同处理复杂任务,适用于各领域应用。

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

这项由阿伯丁大学和格勒诺布尔阿尔卑斯大学研究者联合完成的研究揭示了大语言模型处理日期时的关键问题:现代分词器常将日期分割成无意义的碎片,如"20250312"被切分为"202"、"503"、"12",这严重影响时间推理能力。研究提出了日期碎片化率指标,创建了DATEAUGBENCH测试集,并通过内部机制分析发现,大型模型能在早期层快速"修复"碎片化日期,但其推理路径与人类理解方式显著不同,这解释了模型在处理非标准日期时的准确率下降。

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval是KAIST和Trillion Labs联合开发的创新多语言评估框架,通过让语言模型在目标语言中进行自我对话来评估其生成能力。该方法独特之处在于不依赖语言特定工具或人工标注数据,而是通过任务完成率间接衡量语言能力。研究团队测试了8种顶级语言模型在30种语言上的表现,发现其结果与传统评估方法高度一致(相关系数>0.75)。MUG-Eval揭示了模型在低资源语言上表现显著落后,并发现英语并非评估低资源语言的最佳替代。该框架理论上支持2,102种语言,为真正包容的AI评估提供了新途径。

告别过度思考:浙江大学研究团队开发自制动力训练让大型语言模型更高效推理

告别过度思考:浙江大学研究团队开发自制动力训练让大型语言模型更高效推理

浙江大学研究团队开发的"自制动力训练"(Self-Braking Tuning,SBT)方法解决了大型语言模型在推理过程中的过度思考问题。该方法不依赖外部干预,而是培养模型自主识别冗余推理并适时终止的能力。研究者通过分析推理效率比率和过度思考标记比率,构建了两种数据策略:SBT-E(精确版)和SBT-D(动态版)。实验结果表明,经过训练的模型在多个数学基准测试上保持原有准确率的同时,将标记消耗减少了30%到60%,显著提高了推理效率。这项创新使AI系统能更像人类一样有效思考,为资源受限环境下的AI部署提供了新解决方案。

SpatialScore:多模态空间理解的统一评测基准——上海交通大学AI团队如何挑战大模型的3D空间感知能力

SpatialScore:多模态空间理解的统一评测基准——上海交通大学AI团队如何挑战大模型的3D空间感知能力

上海交通大学AI团队提出的SpatialScore是迄今最全面的多模态空间理解评测基准,包含28K样本,涵盖各类空间任务。研究首创VGBench专门评估视觉几何感知能力,并开发SpatialAgent多代理系统,集成9种专业工具增强空间理解。实验表明,即使最先进的大模型在空间理解方面仍存显著局限,特别是在视觉几何感知任务上,而SpatialAgent通过结构化工具调用显著提升性能。这项工作为未来多模态模型在实体AI应用中的发展提供关键方向,填补了AI系统在3D空间认知能力评估的重要空白。

SophiaVL-R1:为多模态大语言模型注入思维奖励,让AI推理能力更上一层楼

SophiaVL-R1:为多模态大语言模型注入思维奖励,让AI推理能力更上一层楼

SophiaVL-R1是香港中文大学和上海人工智能实验室联合开发的多模态大语言模型,创新性地引入了"思维奖励"机制来提升AI的推理能力。与传统方法不同,该研究不仅关注AI是否得出正确答案,还评估整个思考过程的质量,通过Trust-GRPO算法智能地整合思维奖励和结果奖励。实验表明,即使只有7B参数,SophiaVL-R1也能在MathVista、MMMU等多个基准测试中超越参数量大10倍的模型,证明了思维过程监督对提升AI泛化推理能力的重要价值。

思考还是不思考?为视觉-语言模型打造通过强化学习的选择性推理

思考还是不思考?为视觉-语言模型打造通过强化学习的选择性推理

这项由香港中文大学和新加坡国立大学研究者合作开发的"思考或不思考"(TON)框架,通过创新的"思考丢弃"策略和两阶段训练方法,实现了让视觉-语言模型能够像人类一样根据问题难度选择性推理的能力。实验表明,TON可减少高达90%的输出长度,同时保持或提升性能,在计数、数学和导航等多种任务中展现出显著优势,为AI系统在保持推理质量的同时大幅提升效率提供了新思路。

让AI学会用图像思考:GRIT框架如何教会多模态大语言模型在视觉推理中打下坚实基础

让AI学会用图像思考:GRIT框架如何教会多模态大语言模型在视觉推理中打下坚实基础

GRIT是一种创新框架,它教会多模态大语言模型(MLLMs)在视觉推理过程中"边看边思考"。传统MLLMs虽能处理图像和文字,但无法明确指出推理时关注的具体图像区域。GRIT通过引入一种新的推理范式,让模型生成的推理内容自然地混合文本和边界框坐标,使AI能像人类一样在思考时明确参考视觉信息。研究团队开发的GRPO-GR强化学习方法不需要详细标注数据,仅用20个训练样本就能赋予模型这种能力。

SafeKey:放大"啊哈时刻"洞察力,增强安全推理能力

SafeKey:放大"啊哈时刻"洞察力,增强安全推理能力

这项研究提出了SafeKey框架,针对大型推理模型安全问题的新解决方案。研究者发现模型在思考过程中存在"安全啊哈时刻",关键在于理解查询后的第一个句子。SafeKey通过双路径安全头和查询掩码建模两种方法增强这一安全信号,显著提升了模型对越狱攻击的防御能力,平均降低9.6%的有害率,同时保持模型的通用能力。这为AI安全领域提供了新的研究方向。

从机器人感知到智能理解:UC伯克利推出Robo2VLM,利用真实机器人操作数据训练视觉语言模型

从机器人感知到智能理解:UC伯克利推出Robo2VLM,利用真实机器人操作数据训练视觉语言模型

UC伯克利研究团队开发了Robo2VLM,一个创新框架,利用真实机器人操作数据增强视觉语言模型的空间推理能力。该研究从176K真实机器人轨迹创建了一个包含684,710个问题的大规模VQA数据集,涵盖463个场景和3,396个操作任务。实验表明,这些数据可显著提升模型在空间关系理解、目标推理和物理交互方面的能力,为机器人与AI系统的融合开辟新方向。

Tool-Star:如何让AI更聪明地使用多种工具解决问题?人民大学的强化学习新突破

Tool-Star:如何让AI更聪明地使用多种工具解决问题?人民大学的强化学习新突破

Tool-Star是人民大学研究团队开发的AI多工具协作系统,它通过强化学习使大型语言模型能够自主调用多种外部工具进行推理。该系统采用创新的数据合成流程和两阶段训练框架,包括冷启动微调和带有层级奖励的自我批评强化学习。在10项挑战性推理任务中,Tool-Star展现出卓越性能,证明了多工具协作方法的有效性,为AI系统扩展能力边界开辟了新路径。