配备Priority Core Turbo的全新至强6处理器可提升AI工作负载性能,并将率先应用于英伟达最新推出的DGX B300 AI系统。
AI PC的“规模效应”下,不仅仅是处理器、GPU的狂飙突进,更是一场对存储技术的“大考”。PC存储,正在经历一场结构性的升级。
Meta 推出“Llama for Startups”计划,为在美初创企业提供直接支持与资金,助力开发生成式 AI 应用;同时,Meta在 Llama 模型研发中面临竞争与挑战,努力推动 AI 业务增长。
奥兰多魔术队与SAS达成战略合作,借助SAS Viya平台,通过数据和AI技术全方位提升球迷现场及数字化体验,同时优化票务预测与运营管理。
本文讨论了 MCP、ACP 与 Agent2Agent 三项协议如何助力 AI 系统的互联互通,降低整合复杂性,推动从试验向实用化转型。
DataCore 通过收购专注边缘及分支办公室超融合基础设施(HCI)的 StarWind,结合强大软件优势和虚拟 SAN 技术,旨在为分布式网络提供更灵活、经济和高效的存储解决方案。
Dell专家指出,主动式AI将大幅提高计算、存储与网络等基础设施要求,其代币处理、长期记忆和多领域应用均远超现有GenAI能力。
浙江大学ReLER实验室研究团队提出了SEED-GRPO,一种基于语义熵的不确定性感知策略优化方法,用于改进大型语言模型的训练。该方法通过计算模型对不同问题回答的语义多样性,来识别模型的不确定性程度,并据此动态调整学习力度。在五个数学推理基准测试上,SEED-GRPO取得了显著的性能提升,平均准确率达58.2%,在AIME24基准上更是达到56.7%,超越了许多参数量更大的模型,展示了不确定性感知学习在人工智能训练中的巨大潜力。
这篇论文介绍了HISTAI数据集,这是一个包含60,000多张全切片影像的大规模开源病理学数据集。由HistAI团队开发,该数据集涵盖多种组织类型,每个病例都附有详细的临床元数据,包括诊断信息、患者人口统计学数据和病理学注释。HISTAI旨在解决现有公开数据集在规模、多样性和注释方面的不足,促进更稳健、可泛化的AI诊断模型开发,推动计算病理学研究进步。
NVIDIA最新发布的HelpSteer3-Preference是一个包含超过4万个样本的开放许可偏好数据集,涵盖STEM、编程和多语言等多样化任务。由专业标注者标注的高质量数据使研究团队训练出在RM-Bench和JudgeBench基准上分别取得82.4%和73.7%准确率的顶尖奖励模型,比现有最佳模型提升约10%。研究还展示了如何利用这些奖励模型通过RLHF对齐大语言模型,在MT Bench和Arena Hard等评估基准上取得显著提升。这个以CC-BY-4.0许可证发布的数据集为开发更好的通用领域指令型语言模型提供了宝贵资源。
这项研究提出了一种创新的无配对数据训练方法,用于开发轻量级智能手机图像信号处理器(ISP)。传统方法需要具有像素级对齐的配对RAW-RGB数据,而该方法通过多重损失函数和三个鉴别器的对抗训练,成功实现了无需配对数据的高质量图像处理。研究在ZRR和富士胶片UltraISP数据集上测试,证明轻量级模型(仅3K参数)能达到接近配对训练的视觉效果,且适合在手机上实时运行。这一方法大大降低了开发手机相机处理算法的成本和技术门槛。
这项研究解决了语音合成中的多音字问题,特别针对资源有限的波斯语。研究团队提出了两大创新:一是构建HomoRich数据集,为多音字消歧提供丰富素材;二是重新思考G2P系统设计思路,利用这些数据改进基于规则的模型。他们既提升了神经网络模型Homo-GE2PE的准确率,又创造了HomoFast eSpeak这一快速规则模型,两者均实现约30%的多音字识别准确率提升。研究结果特别有助于提高屏幕阅读器等辅助技术的使用体验,对视障用户尤为重要。
这篇论文介绍了一种名为LATENTSEEK的创新框架,它通过在潜在空间进行测试时实例级政策梯度优化,显著提升了大型语言模型的推理能力。研究团队在GSM8K、MATH-500和AIME2024等基准测试上评估了该方法,结果显示LATENTSEEK比思维链方法平均提升了10.75%的准确率。该方法无需更新模型参数,计算高效,平均只需1-2次迭代即可收敛,同时证明了潜在空间中的测试时扩展可行性。
圣地亚哥大学团队提出的VSA(视频稀疏注意力)机制,通过巧妙的两阶段设计解决了视频生成模型的计算瓶颈。它首先将视频分割成小立方体,在粗粒度层面快速识别重要区域,再只在这些区域内进行精细计算。实验表明,VSA能在不损失生成质量的情况下将训练计算量减少2.53倍,将推理时间从31秒缩短至18秒。这一可训练的稀疏注意力机制为大规模视频生成模型的进一步发展铺平了道路。
这项研究首次提出了ViPlan基准测试,系统评估视觉语言模型在视觉规划任务中的表现。研究对比了"VLM作为规划器"和"VLM作为接地器"两种方法,发现在抽象的积木世界中接地器方法更优,而在模拟家庭环境中规划器方法表现更佳。研究还发现链式思考提示对大多数模型并无显著改善效果,表明当前视觉语言模型在视觉推理方面仍存在局限性。
MTVCrafter是一项开创性研究,首次通过4D运动令牌化直接建模原始3D运动序列,而非传统的2D姿势图像,实现了高质量人物动画。由中国科学院深圳先进技术研究院团队开发的这一框架,结合了4D运动令牌化器(4DMoT)和运动感知视频扩散Transformer(MV-DiT),可以将任意视频中的动作精准转移到多种风格的静态角色上。实验显示,MTVCrafter在TikTok基准测试中FID-VID指标达6.98,比现有最佳方法提高65%,展现出优异的开放世界泛化能力,为数字人类创建开辟了新范式。
这项由新加坡和英国研究机构联合进行的研究,使用多智能体强化学习探索了语言起源问题。研究团队设计了"觅食游戏"环境,让智能体在部分可观察的世界中协作完成任务。结果表明,智能体自发发展出具有人类语言五大特性的通信系统:任意性、互换性、位移性、文化传播和组合性。研究提供了关于语言如何在合作环境中自然演化的新见解,证明语言是从社会互动和共享目标中浮现的工具,而非孤立系统。
QVGen是一项突破性研究,致力于解决视频扩散模型在低比特量化时的性能挑战。研究团队通过理论分析发现,降低梯度范数是改善量化感知训练收敛性的关键,因此引入了辅助模块来减轻量化误差。为消除这些模块在推理阶段的开销,他们创新性地提出了秩衰减策略,通过奇异值分解和基于秩的正则化逐步移除低影响组件。实验证明,QVGen是首个在4比特设置下达到与全精度相当性能的量化方法,其3比特实现也显著优于现有技术。这一成果为高效视频生成在普通设备上的应用铺平了道路。
Tiny QA Benchmark++(TQB++)是一个超轻量级的大型语言模型(LLM)评估工具,由Comet ML公司的Vincent Koc开发。这套工具仅需几秒钟即可检测LLM系统中的关键故障,与大型基准测试形成鲜明对比。其核心是一个不到20KB的52个精心制作的英语问答集,非常适合快速CI/CD检查和提示工程。TQB++的主要创新在于提供了一个合成数据生成工具包,能够按需产生任何语言、领域或难度的微型基准测试,并预先构建了11种语言的测试包。
TECHNIQUERAG是一种新型检索增强生成框架,专为网络安全领域的对抗性技术识别而设计。卡塔尔计算研究所的研究团队创新性地整合了现成检索器、LLM重排序和有限的文本-技术配对数据,有效解决了数据稀缺性和领域专业性挑战。实验表明,该方法在多个安全基准上实现了最先进的性能,无需大量标记数据或特定任务优化。TECHNIQUERAG通过零样本LLM重排序增强了检索质量,使防御者能更准确地从威胁情报文本中识别MITRE ATT&CK技术,为网络安全分析提供了强大工具。