人工智能 关键字列表
甲骨文云服务或在本十年内媲美AWS

甲骨文云服务或在本十年内媲美AWS

甲骨文正在成为大规模基础设施供应商的可靠选择。该公司通过AI技术推动应用开发,构建GenAI模型并将智能代理集成到应用套件中。CEO萨弗拉·卡茨透露,公司剩余履约义务达4553亿美元,同比增长4.6倍,并预测OCI收入将从2026财年的180亿美元增长至2030财年的1440亿美元。甲骨文正积极布局AI推理市场,凭借其作为全球最大企业私有数据托管方的优势地位,有望在云计算领域实现重大突破。

Google推出VaultGemma模型,引领隐私保护AI新标准

Google推出VaultGemma模型,引领隐私保护AI新标准

谷歌推出全球最强差分私有大语言模型VaultGemma,这是一个10亿参数的模型,基于Gemma架构构建。该模型采用先进数学算法防止敏感数据泄露,通过在数据集中添加受控噪声实现隐私保护。VaultGemma在多项基准测试中表现卓越,性能可媲美同等参数的非私有模型,但完全不会暴露训练数据,为金融和医疗等监管行业的AI应用提供重要保障。

学者用AI智能体模拟美联储委员会会议

学者用AI智能体模拟美联储委员会会议

乔治华盛顿大学研究人员开发出"FOMC计算机模拟"项目,成功构建了美联储公开市场委员会会议的AI模型。该项目将每位委员的政策态度和投票记录输入系统,创建数字化委员档案。研究采用双轨模拟框架,结合大语言模型驱动的会议模拟与博弈论投票模型。主要发现显示,在政治压力下,委员会成员会产生分歧并破坏共识。这一技术突破为未来模拟各类群体决策会议奠定了基础。

AI聊天机器人正悄然引发隐私危机

AI聊天机器人正悄然引发隐私危机

AI聊天机器人如ChatGPT、Gemini和Grok日益融入日常生活,目前最受欢迎的用途是心理治疗。人们常与它们讨论敏感话题,误以为对话会保持私密。然而,聊天机器人不受保密规则约束。近期发生多起数据泄露事件,包括ChatGPT分享功能导致对话被搜索引擎索引,Grok多达30万次聊天记录被公开。企业中"影子AI"使用也带来风险。专家建议避免分享个人敏感信息,企业应制定相关政策。

Atla公司发布Selene Mini:一个8B参数的强大语言模型评估器,性能超越GPT-4o-mini

Atla公司发布Selene Mini:一个8B参数的强大语言模型评估器,性能超越GPT-4o-mini

Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。

ByteDance推出Seaweed-APT:1秒生成2秒高清视频,AI视频制作迈入实时时代

ByteDance推出Seaweed-APT:1秒生成2秒高清视频,AI视频制作迈入实时时代

ByteDance研究团队开发出革命性的Seaweed-APT技术,实现了首个真正意义上的实时高清视频生成。该技术通过创新的对抗后训练方法,将传统需要25步和数分钟的视频生成过程压缩为单步1秒完成,能生成2秒长1280×720高清视频,视觉真实感提升37.2%。尽管在结构完整性方面存在一定权衡,但这项突破为AI内容创作、社交媒体、教育和娱乐等领域开启了实时视频生成的新时代。

AI视频能懂物理定律吗?Google DeepMind用396个视频测出了真相

AI视频能懂物理定律吗?Google DeepMind用396个视频测出了真相

Google DeepMind通过Physics-IQ基准测试发现,尽管当前AI视频模型能生成视觉上极为逼真的内容,但其物理理解能力严重不足。研究使用396个真实物理实验视频测试了8个主流模型,结果显示最佳模型得分仅为29.5%。更重要的是,视觉真实度与物理理解能力之间几乎无关联,这一发现对AI发展具有重要启示意义。

AI大模型批评能力大考验:为什么o1-mini脱颖而出?中科大深圳团队揭示传统模型批评能力之痛

AI大模型批评能力大考验:为什么o1-mini脱颖而出?中科大深圳团队揭示传统模型批评能力之痛

中科大深圳团队开发RealCritic框架,发现AI大模型普遍存在批评能力缺陷。除o1-mini外,多数模型在自我批评时表现下降,甚至把正确答案改错。研究揭示"会做题"和"会批评"是不同技能,提出闭环评估新方法,为AI批评能力评估提供科学标准。

大语言模型的一个奇怪现象:思考让它们更自信,即使答案是错的!西班牙马德里理工大学震撼发现

大语言模型的一个奇怪现象:思考让它们更自信,即使答案是错的!西班牙马德里理工大学震撼发现

西班牙马德里理工大学等机构联合研究发现,大语言模型在经过推理思考后会变得更加自信,但这种自信不分对错。研究测试了七个不同模型,发现当要求AI先解释推理过程再回答选择题时,所有模型都表现出更高的信心水平,且错误答案的信心增长甚至超过正确答案。这一现象类似人类"解释即相信"的认知偏见。

AI视觉推理新突破:中国团队让机器像人一样"慢思考",仅用5千个文本案例就追平顶级商业系统

AI视觉推理新突破:中国团队让机器像人一样"慢思考",仅用5千个文本案例就追平顶级商业系统

这项由中国人民大学等机构合作完成的研究提出了Virgo系统,发现仅用5000个纯文本推理案例训练就能让AI在视觉推理任务上达到顶级商业系统水平。研究证实推理能力具有跨模态通用性,为更经济高效地开发多模态AI系统指明了新方向,同时也揭示了AI感知反思能力不足的局限性。

上海交大团队首次证实:AI思考时间越长,医学诊断越精准

上海交大团队首次证实:AI思考时间越长,医学诊断越精准

上海交通大学团队通过"推理时间扩展"技术让AI学会深度思考,在医学诊断中取得突破。研究发现AI思考时间越长诊断越准确,仅用500个样本就实现6%-11%准确率提升。AI模型展现出类似医生的临床推理能力,能进行差异诊断和证据权衡,特别在复杂罕见疾病诊断方面表现出色,为AI医学应用开辟新方向。

AI"法官"新突破:Meta团队让机器无师自通判别图像安全问题

AI"法官"新突破:Meta团队让机器无师自通判别图像安全问题

Meta团队开发出CLUE系统,这是一种无需人工标注数据就能判断图像安全问题的AI方法。该系统通过将主观安全规则客观化、智能筛选相关规则、分解复杂条件、消除判断偏见等创新技术,在测试中达到95.9%召回率和94.8%准确率,显著超越传统方法。这项突破为内容平台提供了高效灵活的安全检测工具,有望改变网络内容审核的现状。

AI评测基准测试的冗余危机:上海AI实验室揭示多模态大模型评估中的重复性问题

AI评测基准测试的冗余危机:上海AI实验室揭示多模态大模型评估中的重复性问题

上海AI实验室团队通过分析100多个多模态大语言模型在20多个基准上的表现,系统揭示了AI评测领域的三大冗余问题:基准内部维度重复、测试实例数量冗余、跨基准领域重叠。研究发现至少50%的测试题目是多余的,且模型能力越弱冗余度越高,为构建更高效的AI评测体系提供了科学依据和设计原则。

北京交通大学团队推出首个多图像定位AI,让机器像人一样"举一反三"找目标

北京交通大学团队推出首个多图像定位AI,让机器像人一样"举一反三"找目标

北京交通大学等机构联合开发出首个多图像视觉定位AI模型Migician,能像人类一样在多张图片中精确定位目标物体。该模型平均准确率达63.82%,比同类AI高出25个百分点,在自动驾驶、安防监控、医疗影像等领域具有广泛应用前景。研究团队构建了63万样本数据库和全面测试平台,并将所有资源开源,为多模态AI发展开辟新方向。

强化学习遇上变形金刚:田纳西理工大学发现AI自学的秘密

强化学习遇上变形金刚:田纳西理工大学发现AI自学的秘密

田纳西理工大学研究团队通过结合强化学习和变形金刚架构,成功开发出具备"元学习"能力的AI系统。该系统能在未见过的环境中快速适应并持续改进,展现了900%的性能提升。研究证实AI可进行技能组合、适应环境变化,且对训练数据质量具有显著鲁棒性,为通用人工智能发展指明新方向。

这款会"进化"的手机助手,让智能手机变得前所未有地聪明——伊利诺伊大学联合阿里巴巴推出Mobile-Agent-E

这款会"进化"的手机助手,让智能手机变得前所未有地聪明——伊利诺伊大学联合阿里巴巴推出Mobile-Agent-E

伊利诺伊大学和阿里巴巴联合推出Mobile-Agent-E,这是一款革命性的自我进化手机智能助手。该系统采用分层多智能体架构,能够处理复杂的跨应用任务,更重要的是具备从经验中学习的能力。在新开发的Mobile-Eval-E基准测试中,性能比现有最佳方法提升22.1%。

数字孪生技术为网络安全防御带来预测优势

数字孪生技术为网络安全防御带来预测优势

数字孪生技术正在改变网络安全防御模式,从被动响应转向主动预测。这种实时学习演进的虚拟副本让安全团队能够在威胁发生前预见攻击。组织可以在数字孪生环境中预演明日的攻击,将防御从事后反应转变为事前排演。通过动态更新的IT生态系统副本,团队可在真实条件下压力测试防御体系,模拟零日漏洞攻击并制定应对策略,从根本上重塑网络安全实践方式。

SK海力士完成HBM4开发,为下一代GPU量产做准备

SK海力士完成HBM4开发,为下一代GPU量产做准备

韩国存储巨头SK海力士宣布完成HBM4开发并准备大规模量产,消息推动其股价上涨7%。随着AMD和英伟达的下一代数据中心GPU将采用HBM4技术,高带宽内存已成为AI加速器的核心组件。SK海力士通过将I/O端子数量增至2048个,有效实现了带宽翻倍,能效提升超过40%,运行速度达到10Gb/s。美光和三星也在积极推进HBM4产品开发。

可重构计算:破解数据中心复杂性难题

可重构计算:破解数据中心复杂性难题

AI和高性能计算正重塑各行各业,但数据中心为适应多样化工作负载而添加各种专用加速器,反而导致运营效率下降。专用芯片与CPU、GPU等系统组合产生了前所未有的复杂性,功耗飙升至不可持续水平。随着AI模型规模增长和工作负载边界模糊,传统静态硬件分配已不适用。可重构计算提供了新方案:单一平台可动态调整架构以匹配不同需求,消除芯片间通信瓶颈,降低功耗,简化运营。

英伟达展示Rubin CPX推理性能预览

英伟达展示Rubin CPX推理性能预览

英伟达发布新款Rubin CPX GPU,专为大规模上下文处理而设计,可支持百万级token的软件编程和生成视频。该产品将搭载于Vera Rubin NVL 144 CPX平台,承诺高能效和卓越推理性能,每投资1亿美元可获得50亿美元token收入。同时,英伟达展示了Blackwell Ultra GB300系统的基准测试结果,DeepSeek-R1推理性能较前代提升1.4倍。