最新文章
2025-05-27

通过应用生命周期管理实现竞争优势

应用生命周期管理(ALM,Application Lifecycle Management)是 IT 基础设施中的一个关键组成部分,可协调和优化软件和产品的整个生命周期。从最初的概念到开发、维护和进一步发展:ALM 可确保所有流程实现无缝连接和优化控制。

思科的AI战略蓝图:连接好AI,守护住AI

思科的AI战略蓝图:连接好AI,守护住AI

AI作为推动生产力提升和差异化竞争的重要引擎,已成为不可逆的趋势,客户普遍认可其长期价值,在AI这条赛道上要不断强化本地生态和应用实践。

一张照片变出立体城镇:UCSC和哥伦比亚大学联合研发的3DTown技术突破

一张照片变出立体城镇:UCSC和哥伦比亚大学联合研发的3DTown技术突破

这篇论文介绍了3DTown,一种从单一俯视图生成3D城镇场景的创新方法。研究团队结合区域化生成和空间感知3D修复技术,无需额外训练即可创建几何一致、布局协调的3D场景。通过将场景分解为重叠区域并使用预训练生成器处理每个区域,该方法显著优于现有技术,在几何质量、空间连贯性和纹理保真度方面表现突出,为游戏开发、虚拟现实和城市规划等领域提供了实用解决方案。

深度思考的启示:大语言模型如何通过"先验知识"在知识图谱上进行可信推理

深度思考的启示:大语言模型如何通过"先验知识"在知识图谱上进行可信推理

西安交通大学等机构研究团队提出的"基于先验的深度思考"(DP)框架,通过充分利用知识图谱中的结构信息和约束条件,显著提升了大语言模型的推理可靠性。该框架包含知识蒸馏、规划、实例化和内省四个组件,通过渐进式知识蒸馏策略和推理内省机制,使模型能生成更忠实和可靠的回答。在三个基准数据集上的实验表明,DP不仅提高了推理准确性,特别是在ComplexWebQuestions数据集上的Hit@1提升了13%,还大大减少了模型交互次数,展现出极高的实用性。

WEB-SHEPHERD:让网络代理更智能的过程奖励模型

WEB-SHEPHERD:让网络代理更智能的过程奖励模型

这项研究介绍了WEB-SHEPHERD,这是首个专为评估网络导航轨迹设计的过程奖励模型。延世大学和卡内基梅隆大学的研究团队创建了包含40K步级别注释的WEBPRM COLLECTION数据集和WEBREWARDBENCH评估基准。实验表明,WEB-SHEPHERD在评估基准上比GPT-4o高出约30个百分点,并且在WebArena-lite上使用时,性能提升了10.9个百分点,同时成本降低了10倍。这一创新模型通过结构化清单将高级用户指令分解为可解释的子目标,为构建更可靠、更经济的网络代理奠定了基础。

AROS 通过 USB 启动发行版将任何 PC 变成 Amiga

AROS 通过 USB 启动发行版将任何 PC 变成 Amiga

AROS 是一款自由、开源的 AmigaOS 重现操作系统,现能以 USB 启动方式在 PC 上运行。它借助 Linux 系统与 QEMU 虚拟化技术,实现了经典 Amiga 环境的体验。

Signal 利用 DRM 技术终结 Microsoft Recall

Signal 利用 DRM 技术终结 Microsoft Recall

Signal利用DRM功能防止Recall自动对Signal窗口截图,从而保障聊天隐私,避免被无差别捕捉信息。

Neptune OS 让 Debian 使用更简便,但确实需要一些整理

Neptune OS 让 Debian 使用更简便,但确实需要一些整理

Neptune OS 基于 Debian 稳定版,采用 KDE 桌面,并预装 Flatpak 支持和现代应用,但其安装器分配了过大交换分区和冗余工具,导致磁盘空间使用吃紧与更新问题。

Microsoft 组建联合力量打击危险的 Lumma 恶意软件

Microsoft 组建联合力量打击危险的 Lumma 恶意软件

微软数字犯罪部门联合美国、欧洲和日本执法机关,根据美国法院命令捣毁了 Lumma 恶意软件的核心基础设施,关闭约2300个恶意域名,清除近40万台受感染的 Windows 电脑,有效切断了网络敲诈和非法盈利链路。

微软工程师会为 Ubuntu 做些什么?AnduinOS 给出了答案

微软工程师会为 Ubuntu 做些什么?AnduinOS 给出了答案

AnduinOS 是微软中国工程师独立打造的 Ubuntu 改版系统,通过定制 GNOME 呈现 Windows 11 风格,轻量无 Snap,适合熟悉 Windows 的用户尝试 Linux。

夸克健康大模型通过副主任医师考试,12门学科超合格线
2025-05-27

夸克健康大模型通过副主任医师考试,12门学科超合格线

大模型在严肃医疗场景中迈出了从“知识记忆”向“临床推理”跃迁的关键一步。

RLVR-World:用强化学习训练世界模型,突破视觉和语言边界的突破性研究

RLVR-World:用强化学习训练世界模型,突破视觉和语言边界的突破性研究

清华大学研究团队提出RLVR-World框架,通过可验证奖励的强化学习直接优化世界模型的预测质量,而非传统的最大似然估计。这一方法在文本游戏状态预测和网页导航中显著提升了准确率,在机器人视频预测中改善了视觉质量并减少重复问题。RLVR微调仅需几百个梯度步骤即可取得显著成效,远比传统训练高效。研究证明该框架可作为生成模型的通用后训练范式,为自动驾驶、机器人控制等应用提供更准确的环境预测能力。

强化微调的幻觉税:如何通过合成不可回答数据解决大语言模型的过度自信问题

强化微调的幻觉税:如何通过合成不可回答数据解决大语言模型的过度自信问题

这项研究揭示了强化微调(RFT)在提升大语言模型推理能力的同时,会产生一种意外副作用——"幻觉税":模型拒绝回答不可回答问题的能力显著下降,导致提供虚构答案的倾向增强。南加州大学的研究者通过创建"合成不可回答数学"(SUM)数据集,系统研究了这一现象,并发现在RFT过程中加入仅10%的SUM数据即可大幅改善模型的拒绝行为,且几乎不影响其解题精度。这一简单有效的方法不仅适用于数学推理,还能泛化到事实性问答等领域,教会模型在面对无法回答的问题时诚实地承认自己的知识边界。

视觉指令瓶颈调优:通过信息压缩提升多模态大语言模型的鲁棒性

视觉指令瓶颈调优:通过信息压缩提升多模态大语言模型的鲁棒性

这篇研究介绍了"视觉指令瓶颈调优"(Vittle)方法,该方法通过应用信息瓶颈原理,增强多模态大语言模型应对分布偏移的能力。研究不依赖增加数据量或模型规模,而是教会模型像人类一样进行"概念压缩",在保留关键信息的同时丢弃冗余细节。在45个数据集的30种分布偏移场景中,Vittle显著提高了模型的鲁棒性,同时保持了标准任务上的出色表现,且几乎不增加推理时间。

GeoRanker:基于距离感知排序的全球图像地理定位新方法——威斯康星大学与香港城市大学联合研究突破

GeoRanker:基于距离感知排序的全球图像地理定位新方法——威斯康星大学与香港城市大学联合研究突破

这篇研究论文介绍了"GeoRanker",这是一种突破性的全球图像地理定位方法,由香港城市大学和威斯康星大学麦迪逊分校研究人员联合开发。不同于传统方法,GeoRanker采用了距离感知排序框架,利用大型视觉语言模型对查询图像与候选位置之间的关系进行建模。核心创新在于提出的多阶距离损失,不仅考虑绝对距离还建模相对空间关系,以及构建的首个地理排序数据集GeoRanking。实验表明,GeoRanker在IM2GPS3K和YFCC4K基准测试上显著超越现有方法,在街道级准确率上分别提升12.9%和37.3%。

Anthropic 首席执行官声称 AI 模型幻觉比人类少

Anthropic 首席执行官声称 AI 模型幻觉比人类少

Anthropic CEO Amodei 在旧金山 Code with Claude 活动的新闻发布会上表示,目前 AI 模型的幻觉发生频率或低于人类,并认为这不阻碍通向 AGI 的进程。

开场序幕:AWE 2025 让 XR 跨入主流

开场序幕:AWE 2025 让 XR 跨入主流

AWE 2025将于2025年6月10日至12日在长滩举行,预计吸引5000余人、250家展商参与。会议聚焦XR与AI的深度融合,展示沉浸式技术如何走向大众市场。

深潜大语言模型的"真空地带":不是所有层都在全力工作,偷懒的层竟然越过越好?

深潜大语言模型的"真空地带":不是所有层都在全力工作,偷懒的层竟然越过越好?

这项研究揭示了大语言模型中存在"空域"——在推理过程中几乎不活跃的神经网络层。研究者开发了L2自适应计算方法,无需额外训练即可准确识别这些空域。惊人的是,在Qwen2.5-7B模型上,跳过70%的层后性能反而从69.24%提升到71.29%;Mistral-7B在GPQA测试中跳过约30%的层后,准确率提高了4.48%。这表明不同模型层的贡献极不均衡,有选择地跳过"懒惰层"不仅能保持性能,有时甚至能提升结果,为未来模型优化提供了新思路。

Vox-Profile:USC和约翰霍普金斯大学联合打造的全面语音特征分析基准测试

Vox-Profile:USC和约翰霍普金斯大学联合打造的全面语音特征分析基准测试

Vox-Profile是南加州大学和约翰霍普金斯大学联合开发的语音特征全面分析基准测试系统,能从语音中识别说话者的静态特征(如年龄、性别、口音)和动态特征(如情绪、语流)。研究团队使用15个以上的公开语音数据集和多种语音基础模型进行测试,发现在多数任务中参数量更大的模型表现更佳。该系统展示了三种主要应用:分析语音识别系统性能差异、评估语音生成系统质量,以及自动生成说话风格描述。人类评估结果表明,Vox-Profile生成的描述与人工标注相当,为语音技术研究提供了新的方向和工具。

揭秘"隐形推理令牌":马里兰大学研究团队开发CoIn系统,为大模型API计费提供透明保障

揭秘"隐形推理令牌":马里兰大学研究团队开发CoIn系统,为大模型API计费提供透明保障

CoIn是马里兰大学研究团队开发的创新框架,旨在解决大型语言模型商业API不透明计费问题。这些API隐藏推理过程只显示最终答案,却仍对所有"看不见"的令牌收费。CoIn通过令牌数量验证和语义有效性验证两大组件,使用户能够审计隐藏令牌而不暴露专有内容。实验表明,即使面对复杂攻击,CoIn的检测成功率高达94.7%,为商业AI服务提供了前所未有的计费透明度。