Tiny QA Benchmark++(TQB++)是一个超轻量级的大型语言模型(LLM)评估工具,由Comet ML公司的Vincent Koc开发。这套工具仅需几秒钟即可检测LLM系统中的关键故障,与大型基准测试形成鲜明对比。其核心是一个不到20KB的52个精心制作的英语问答集,非常适合快速CI/CD检查和提示工程。TQB++的主要创新在于提供了一个合成数据生成工具包,能够按需产生任何语言、领域或难度的微型基准测试,并预先构建了11种语言的测试包。
TECHNIQUERAG是一种新型检索增强生成框架,专为网络安全领域的对抗性技术识别而设计。卡塔尔计算研究所的研究团队创新性地整合了现成检索器、LLM重排序和有限的文本-技术配对数据,有效解决了数据稀缺性和领域专业性挑战。实验表明,该方法在多个安全基准上实现了最先进的性能,无需大量标记数据或特定任务优化。TECHNIQUERAG通过零样本LLM重排序增强了检索质量,使防御者能更准确地从威胁情报文本中识别MITRE ATT&CK技术,为网络安全分析提供了强大工具。
Mistral 与 All Hands AI 合作推出了一款专注编程的 AI 模型 Devstral,通过 Apache 2.0 许可证开放使用,在代码浏览、多文件编辑及自动化测试等任务中表现优异,可在 RTX 4090 或高配 Mac 上运行,定价亲民。
亚马逊在购物 App 中测试一项新功能,通过“大语言模型”从用户评价和网络信息中提炼出产品关键特性,并以对话形式生成简短音频摘要,帮助消费者更便捷地做出购买决策。目前该功能先在部分美国商品上试用,未来将逐步推广。
Extreme Networks 通过 Platform One 平台将会话、多模态及代理 AI 融入企业网络管理,显著提升可视化、自动化和安全性能。
OpenAI 今天推出新版 Responses API 更新,新增远程 MCP、原生图像生成、代码解释器和改进的文件搜索能力,帮助企业构建智能自动化代理,同时维持原有定价。
法国 Mistral AI 携手 All Hands AI 推出 Devstral——一款拥有240亿参数的开源语言模型,专为软件工程代理开发设计,能跨文件理解代码、执行多步骤任务,并在 SWE-Bench 测试中表现出色,以 Apache 2.0 许可证开放供开发者与企业灵活使用。
F5报告强调了企业如何在运营复杂性中推进人工智能(AI)驱动的转型。报告指出,96%受访 IT决策者表示已部署AI模型,这一比例相较 2023年提升四分之一。
本文报道 Klarna 采用 CEO 的 AI 化身发布财报,展示 AI 在提升效率和盈利中的作用,并探讨 AI 替代高管的可能性。
Gartner 2025大中华区高管交流大会于近日盛大召开, Gartner 发布最新研究,阐释生成式人工智能(GenAI)如何改变行业实践,推动企业软件从“辅助工具”迈向“智能代理”的根本性转变。GenAI将彻底重塑企业应用的目的、功能以及人机交互方式。
本文探讨了人工智能驱动的数据中心建设变革,涵盖半导体进步、高密度供电、先进冷却及模块化设计,揭示未来数据中心的高效、灵活与可持续发展趋势。
报告通过实测与专家访谈,分析各型AI模型(如 Llama 3.1 8B 与 405B)的能量消耗,指出文本与视频生成的耗能差异,呼吁提高对AI能耗透明度。
微软研究院提出Chain-of-Model学习范式,将因果关系融入大型语言模型的隐藏状态。这一创新通过"链式表示"将模型参数分为多个子表示链,使模型能够逐层扩展且保持前序能力。研究成果包括CoLM和CoLM-Air两种实现,实验证明它们不仅性能与标准Transformer相当,还提供了高效训练和灵活推理的优势,包括能够渐进扩展模型规模、提供多尺度子模型以及显著加速预填充计算。这一突破为解决大型语言模型训练成本高和部署缺乏灵活性的问题提供了新思路。
这篇研究介绍了字节跳动团队开发的AdaCoT框架,通过强化学习实现大型语言模型的自适应思维链触发。该框架将问题设计为帕累托优化,平衡推理质量与计算效率,使模型能根据输入复杂度自主决定是否使用详细推理。研究结果显示,在维持高性能的同时,AdaCoT能将思维链使用率降低至3.18%,响应令牌数减少约70%,大幅提升模型效率和用户体验。
这项由清华大学张嘉杰等人开发的AdaptThink算法,教会了AI推理模型根据问题难度自动选择思考模式。研究发现,对于简单问题,直接给出答案(NoThinking模式)不仅效率高,准确率还可能更好;而复杂问题则需要深入思考(Thinking模式)。通过强化学习技术,AdaptThink实现了智能切换:在三个数学数据集上,模型响应长度减少53%的同时准确率还提高了2.4%。这项研究为AI推理模型开辟了新思路,使它们更接近人类灵活思考的能力。
这篇研究论文介绍了MM-PRM,一种用于增强多模态数学推理能力的过程奖励模型。研究团队首先构建了一个强大的多模态策略模型MM-Policy,然后创建了包含10,000个多模态数学问题的数据集MM-K12。利用蒙特卡洛树搜索(MCTS)框架,他们自动生成了超过70万个步骤级别的标注,无需人工参与。最终的奖励模型在Best-of-N推理设置中显著提升了多个基准测试的性能,包括MM-K12、OlympiadBench和MathVista等。研究还发现软标签、较小的学习率和路径多样性是优化PRM性能的关键因素。
这项研究提出了FedSVD,一种在联邦学习环境中提升低秩适应(LoRA)微调效果的新方法。研究团队通过引入基于奇异值分解的自适应正交化技术,成功解决了差分隐私随机梯度下降(DP-SGD)与LoRA结合时导致的噪声放大问题。实验表明,FedSVD在GLUE基准测试上显著优于现有方法,特别是在严格隐私保护条件下性能更加稳定,为隐私保护型分布式AI训练提供了新的技术路径。