最新文章
2025-05-23

思科科技创新AI峰会成功举办 并发布2025《网络安全就绪指数》

今日,思科2025科技创新AI峰会在北京正式举行。本次峰会以“智领未来”为主题,汇聚了来自全球的行业专家、知名学者、企业领袖以及科技创新者。

2025-05-23

科技破界,创变共生!2025第五届创客万里行在京启动

5月22日,由中国产业发展促进会指导,天九科协、天九老板云联合主办的2025第五届创客万里行启动仪式暨天九科协成立三周年庆典在北京隆重举办。

2025-05-23

金融测试新引擎:AI驱动下的银行测试创新案例

在金融行业数字化转型加速的背景下,软件测试作为保障系统质量的关键环节,面临着业务高频迭代、场景复杂等挑战。

2025-05-23

红帽合作伙伴在红帽企业Linux 10上加速混合云和AI创新

全球领先的开源解决方案提供商红帽公司近日宣布,推出其旗舰产品——最新版本红帽企业Linux 10,并全面升级其全球合作伙伴生态系统支持。

2025-05-23

2025IAI传鉴国际创意节&传鉴品牌峰会在北京举办!

5月21 -22日,2025 IAI传鉴国际创意节于北京盛大启幕。

2025-05-23

IAI传鉴国际创意节第二日精彩继续

2025IAI传鉴国际创意节第二日的议程,以“县域品牌跃迁、非遗孵化机制、AI内容生态、健康消费升级”为主线,系统展示了中国在新周期下的品牌方法论和文化路径图。IAI正在以系统化的赛事体系、平台机制与品牌工具,打造一个“以县域为支点、以创意为引擎、以AI为工具”的中国新品牌运动。

双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

这项研究介绍了WikiDYK基准测试,利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现,双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs),准确率高出约23%。基于此,研究团队提出了一个模块化框架,将BiLMs作为知识库集成到LLMs中,进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设,为AI系统的知识更新提供了新方向。

解析数字原住民:Gen Alpha网络语言如何挑战AI内容审核系统

解析数字原住民:Gen Alpha网络语言如何挑战AI内容审核系统

这篇研究探讨了Alpha世代(2010-2024年出生)独特的数字通信模式如何挑战现有AI内容审核系统。研究者评估了四大AI系统(GPT-4、Claude、Gemini和Llama 3)以及人类审核员理解这一代专属语言的能力,特别关注隐蔽骚扰识别。研究创建了100个当代Alpha世代表达的数据集,发现即使是最先进的AI系统也难以理解Alpha世代快速演变的语言,特别是在语境依赖和隐蔽风险方面。

透过魔镜:斯科尔科沃研究院最新AI技术教你如何识别"奇怪图像"

透过魔镜:斯科尔科沃研究院最新AI技术教你如何识别"奇怪图像"

斯科尔科沃科技学院和合作伙伴的研究团队开发了新型AI方法"TLG",有效识别违反常识的奇怪图像。该方法利用大型视觉-语言模型从图像提取基本事实,再通过注意力池化分类器分析这些事实的一致性,实现了WHOOPS!数据集73.54%和新创建的WEIRD数据集87.57%的准确率,均达到目前最佳水平。研究还创建了包含824张图像的WEIRD数据集,为评估AI对常识判断的能力提供更全面基础。

史丹福大学团队推出MedCaseReasoning:首个用真实病例评估和提升AI医疗推理能力的开源数据集

史丹福大学团队推出MedCaseReasoning:首个用真实病例评估和提升AI医疗推理能力的开源数据集

斯坦福大学研究团队开发了MedCaseReasoning数据集,这是首个专门评估人工智能与临床医生诊断推理一致性的开源数据库。现有医疗AI评估标准仅检验诊断准确率,忽视了推理过程质量。该数据集包含14,489个诊断问答案例,每个都附有真实临床推理,涵盖800多种医学期刊。研究发现顶尖AI模型在医疗推理方面表现有限,如DeepSeek-R1的诊断准确率仅48%,推理召回率仅64%。

R3:打破传统,创建超强"裁判型"人工智能——斯坦福大学等机构联合研究突破性奖励模型

R3:打破传统,创建超强"裁判型"人工智能——斯坦福大学等机构联合研究突破性奖励模型

这项由斯坦福大学和多家研究机构联合推出的R3(强健的无评分标准奖励模型)系统,解决了现有AI评估模型在可控性与可解释性方面的关键缺陷。不同于仅提供分数的传统模型,R3能适应任何评分标准,支持单项评分、对比评分和二元评分三种评估形式,并提供详细解释。研究团队从45个来源构建了高质量数据集,即使仅用14,000个训练样本,R3模型也在众多基准测试中超越了现有系统。这一突破性研究为AI系统提供了更透明、更可信的评估方式,有望显著改善人类与AI的互动体验。

一个字就能节省千个字:低秩克隆技术实现高效知识蒸馏,哈尔滨工业大学研究提升小型语言模型效率

一个字就能节省千个字:低秩克隆技术实现高效知识蒸馏,哈尔滨工业大学研究提升小型语言模型效率

这篇论文介绍了一种名为"低秩克隆"(LRC)的新型知识蒸馏方法,能极大提升小型语言模型的训练效率。哈尔滨工业大学深圳校区和百度公司的研究团队通过训练可学习的低秩投影矩阵,同时实现了软剪枝和激活克隆,避免了传统方法中的信息损失和对齐效率低下问题。实验证明,仅用100亿-200亿文本单元训练的LRC模型性能可匹配或超越需要万亿级训练数据的现有模型,训练效率提升1000倍以上,为资源受限场景下的高性能语言模型开发提供了突破性解决方案。

埃克塞尔集团携手孝南区共绘算力经济新蓝图——  “数智创新 算力未来”主题活动助推区域高质量发展
2025-05-23

埃克塞尔集团携手孝南区共绘算力经济新蓝图—— “数智创新 算力未来”主题活动助推区域高质量发展

2025年5月20日至21日,由埃克塞尔集团与孝南区政府联合主办,中国智能计算产业联盟秘书长安静主持的“数智创新 算力未来”主题活动暨算力经济专家座谈会,在湖北省孝感市孝南区成功举办。

通用用户模型:斯坦福大学团队如何让计算机真正理解我们的工作习惯与需求

通用用户模型:斯坦福大学团队如何让计算机真正理解我们的工作习惯与需求

斯坦福大学与微软研究院联合开发的通用用户模型(GUM)突破了传统用户模型的局限性,实现了跨应用、跨情境的用户理解。这项研究通过分析用户日常计算机使用行为,构建置信度加权的自然语言命题,精确捕捉用户行为、知识与偏好。研究团队基于GUM开发了Gumbo助手,能主动发现并执行用户潜在需求的任务,如为婚礼找租西装地点或创建搬家计划。实验证明GUM提供高准确度(76.15%)和良好校准的用户理解,为实现计算机真正理解人类需求的愿景铺平了道路。

模型合并:一项提升大型语言模型预训练效果的强大武器——字节跳动Seed团队最新研究成果解析

模型合并:一项提升大型语言模型预训练效果的强大武器——字节跳动Seed团队最新研究成果解析

这篇研究探讨了模型合并技术在大型语言模型预训练中的应用。字节跳动Seed团队通过从百万到千亿参数级别的系统实验证明,在稳定训练阶段合并检查点不仅显著提升模型性能,还能准确预测学习率衰减效果,大大节省计算资源。研究提出的PMA策略使恒定学习率训练后通过简单合并就能获得相当于完成衰减训练的效果。此外,他们还发现该技术能有效提高训练稳定性,避免训练崩溃。通过全面实验分析,研究为开源社区提供了实用的预训练模型合并指南。

大语言模型中的分词限制:一项探究符号和算术推理边界的研究

大语言模型中的分词限制:一项探究符号和算术推理边界的研究

这项由不列颠哥伦比亚大学张翔和曹俊泰领衔的研究,揭示了大语言模型中一个被忽视的关键限制:分词系统对符号和算术推理能力的影响。研究团队发现,即使使用思维链提示技术,模型的推理能力仍受制于分词格式。通过将原子符号(如字母)明确分割的输入格式,可使模型在计数、排序和反转等任务上的准确率提升高达80%。实验证明,在优化分词条件下,较小模型甚至能超越更大模型的表现。这一发现颠覆了传统认知,提示我们分词设计对模型能力的重要性不亚于模型架构本身。

解锁长文推理效率:首尔国立大学和成均馆大学开发的"推理路径压缩"技术让LLM思考更快更省资源

解锁长文推理效率:首尔国立大学和成均馆大学开发的"推理路径压缩"技术让LLM思考更快更省资源

首尔国立大学和成均馆大学的研究者提出了"推理路径压缩"(RPC)技术,一种无需训练的方法,能够对大语言模型在推理过程中生成的冗余内容进行压缩。研究发现推理路径存在"语义稀疏性"——大量重复或多余的内容。RPC通过定期评估词元重要性并保留最关键部分,将QwQ-32B模型的推理吞吐量提高了1.60倍,同时准确率仅下降1.2%,并显著减少了内存消耗,解决了长序列生成的内存溢出问题。

NExT-Search:重建生成式AI搜索的用户反馈生态系统,打破大语言模型搜索的反馈断层

NExT-Search:重建生成式AI搜索的用户反馈生态系统,打破大语言模型搜索的反馈断层

NExT-Search是一项创新研究,旨在解决生成式AI搜索中的用户反馈断层问题。传统网络搜索通过丰富的用户点击和停留时间等信息不断优化,而生成式AI搜索虽提高了便利性,但用户只能对最终答案提供粗粒度反馈,无法指出具体环节问题。该研究提出双模式解决方案:用户调试模式允许在查询分解、文档检索和答案生成三个关键阶段进行干预;影子用户模式则利用个性化代理模拟用户偏好,减少交互负担。

让语言模型流动起来:MediaTek Research团队研发的Latent Flow Transformer,通过流匹配压缩Transformer层数

让语言模型流动起来:MediaTek Research团队研发的Latent Flow Transformer,通过流匹配压缩Transformer层数

MediaTek Research团队提出的Latent Flow Transformer(LFT)是一种创新架构,通过流匹配技术将多个Transformer层压缩为单层,大幅提升效率。研究引入"重耦合比率"指标精确预测适合压缩的层,并开发Flow Walking算法解决路径交叉问题。在Pythia-410M模型上,LFT成功将12层压缩为1层,其性能超过简单跳过3层的方法,缩小了自回归与基于流的生成方法之间的差距。这一技术不仅降低了模型参数量,还保持与原始架构兼容性,为大型语言模型的高效部署开辟了新途径。

"真相神经元":探索大语言模型中的"诚实机制"——史蒂文斯理工学院揭秘AI如何区分真假

"真相神经元":探索大语言模型中的"诚实机制"——史蒂文斯理工学院揭秘AI如何区分真假

史蒂文斯理工学院研究团队发现大语言模型内部存在"真相神经元",这些特殊神经元能够识别信息真实性,不受主题限制。研究通过积分梯度方法定位这些神经元,证明抑制它们会显著降低模型在真实性测试中的表现。实验表明,这些神经元主要分布在模型的中间层,且其影响可跨数据集泛化。这一发现为提高AI系统可信度提供了全新视角,有望促进更可靠的语言模型开发。