2025IAI传鉴国际创意节第二日的议程,以“县域品牌跃迁、非遗孵化机制、AI内容生态、健康消费升级”为主线,系统展示了中国在新周期下的品牌方法论和文化路径图。IAI正在以系统化的赛事体系、平台机制与品牌工具,打造一个“以县域为支点、以创意为引擎、以AI为工具”的中国新品牌运动。
这项研究介绍了WikiDYK基准测试,利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现,双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs),准确率高出约23%。基于此,研究团队提出了一个模块化框架,将BiLMs作为知识库集成到LLMs中,进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设,为AI系统的知识更新提供了新方向。
这篇研究探讨了Alpha世代(2010-2024年出生)独特的数字通信模式如何挑战现有AI内容审核系统。研究者评估了四大AI系统(GPT-4、Claude、Gemini和Llama 3)以及人类审核员理解这一代专属语言的能力,特别关注隐蔽骚扰识别。研究创建了100个当代Alpha世代表达的数据集,发现即使是最先进的AI系统也难以理解Alpha世代快速演变的语言,特别是在语境依赖和隐蔽风险方面。
斯科尔科沃科技学院和合作伙伴的研究团队开发了新型AI方法"TLG",有效识别违反常识的奇怪图像。该方法利用大型视觉-语言模型从图像提取基本事实,再通过注意力池化分类器分析这些事实的一致性,实现了WHOOPS!数据集73.54%和新创建的WEIRD数据集87.57%的准确率,均达到目前最佳水平。研究还创建了包含824张图像的WEIRD数据集,为评估AI对常识判断的能力提供更全面基础。
斯坦福大学研究团队开发了MedCaseReasoning数据集,这是首个专门评估人工智能与临床医生诊断推理一致性的开源数据库。现有医疗AI评估标准仅检验诊断准确率,忽视了推理过程质量。该数据集包含14,489个诊断问答案例,每个都附有真实临床推理,涵盖800多种医学期刊。研究发现顶尖AI模型在医疗推理方面表现有限,如DeepSeek-R1的诊断准确率仅48%,推理召回率仅64%。
这项由斯坦福大学和多家研究机构联合推出的R3(强健的无评分标准奖励模型)系统,解决了现有AI评估模型在可控性与可解释性方面的关键缺陷。不同于仅提供分数的传统模型,R3能适应任何评分标准,支持单项评分、对比评分和二元评分三种评估形式,并提供详细解释。研究团队从45个来源构建了高质量数据集,即使仅用14,000个训练样本,R3模型也在众多基准测试中超越了现有系统。这一突破性研究为AI系统提供了更透明、更可信的评估方式,有望显著改善人类与AI的互动体验。
这篇论文介绍了一种名为"低秩克隆"(LRC)的新型知识蒸馏方法,能极大提升小型语言模型的训练效率。哈尔滨工业大学深圳校区和百度公司的研究团队通过训练可学习的低秩投影矩阵,同时实现了软剪枝和激活克隆,避免了传统方法中的信息损失和对齐效率低下问题。实验证明,仅用100亿-200亿文本单元训练的LRC模型性能可匹配或超越需要万亿级训练数据的现有模型,训练效率提升1000倍以上,为资源受限场景下的高性能语言模型开发提供了突破性解决方案。
2025年5月20日至21日,由埃克塞尔集团与孝南区政府联合主办,中国智能计算产业联盟秘书长安静主持的“数智创新 算力未来”主题活动暨算力经济专家座谈会,在湖北省孝感市孝南区成功举办。
斯坦福大学与微软研究院联合开发的通用用户模型(GUM)突破了传统用户模型的局限性,实现了跨应用、跨情境的用户理解。这项研究通过分析用户日常计算机使用行为,构建置信度加权的自然语言命题,精确捕捉用户行为、知识与偏好。研究团队基于GUM开发了Gumbo助手,能主动发现并执行用户潜在需求的任务,如为婚礼找租西装地点或创建搬家计划。实验证明GUM提供高准确度(76.15%)和良好校准的用户理解,为实现计算机真正理解人类需求的愿景铺平了道路。
这篇研究探讨了模型合并技术在大型语言模型预训练中的应用。字节跳动Seed团队通过从百万到千亿参数级别的系统实验证明,在稳定训练阶段合并检查点不仅显著提升模型性能,还能准确预测学习率衰减效果,大大节省计算资源。研究提出的PMA策略使恒定学习率训练后通过简单合并就能获得相当于完成衰减训练的效果。此外,他们还发现该技术能有效提高训练稳定性,避免训练崩溃。通过全面实验分析,研究为开源社区提供了实用的预训练模型合并指南。
亚马逊云科技近日正式推出新一代企业现代化服务 Amazon Transform,通过Agentic AI加速企业核心工作负载向云原生架构迁移,将原本耗时18个月以上的传统流程压缩至数周甚至数天。
当前,大模型领域的竞争已全面展开——从硬件架构到软件算法的各个层面,厂商都在展示技术实力。而拥有海量数据存储经验的云服务商们,正通过优化硬盘与固态硬盘的混合存储架构,为规模化AI分析提供支撑,并推出一系列创新AI应用。
近日,曙光存储集中式全闪存储FlashNexus,在“中国移动2025-2027年全闪存存储产品集中采购项目”中以第二份额(27%)中标,合同金额高达3871万元,补齐了集中式存储的拼图。
配备Priority Core Turbo的全新至强6处理器可提升AI工作负载性能,并将率先应用于英伟达最新推出的DGX B300 AI系统。
AI PC的“规模效应”下,不仅仅是处理器、GPU的狂飙突进,更是一场对存储技术的“大考”。PC存储,正在经历一场结构性的升级。
Meta 推出“Llama for Startups”计划,为在美初创企业提供直接支持与资金,助力开发生成式 AI 应用;同时,Meta在 Llama 模型研发中面临竞争与挑战,努力推动 AI 业务增长。
奥兰多魔术队与SAS达成战略合作,借助SAS Viya平台,通过数据和AI技术全方位提升球迷现场及数字化体验,同时优化票务预测与运营管理。
本文讨论了 MCP、ACP 与 Agent2Agent 三项协议如何助力 AI 系统的互联互通,降低整合复杂性,推动从试验向实用化转型。
DataCore 通过收购专注边缘及分支办公室超融合基础设施(HCI)的 StarWind,结合强大软件优势和虚拟 SAN 技术,旨在为分布式网络提供更灵活、经济和高效的存储解决方案。