大语言模型 关键字列表
优化生成式AI与智能体AI成本的十大最佳实践

优化生成式AI与智能体AI成本的十大最佳实践

随着企业规模扩大,生成式AI的开发与运营成本显著攀升。Gartner分析师Arun Chandrasekaran提出十大成本优化最佳实践,涵盖:客观评估模型精度与成本的权衡、建立AI沙盒提升价格透明度、平衡模型定制的前期与运营成本、评估自托管的隐性成本、主动管理SaaS应用、协商智能体AI定价模式、自动化模型选择与路由、构建共享RAG平台、培训用户高效使用AI,以及持续分析显性与隐性成本,从而实现最大化投资回报。

苹果全新Foundation Models详解:端侧AI、云端AI及其全面解析

苹果全新Foundation Models详解:端侧AI、云端AI及其全面解析

苹果在WWDC26发布了第三代Apple Foundation Models(AFM),共包含五款模型。其中AFM 3 Core和AFM 3 Code Advanced为端侧模型,AFM Cloud、ADM 3 Cloud(Image)和AFM 3 Cloud Pro为云端模型。值得关注的是,AFM 3 Cloud Pro运行于Google Cloud的NVIDIA GPU上,这是苹果首次将Private Cloud Compute架构扩展至第三方基础设施。端侧旗舰AFM 3 Core Advanced拥有200亿参数,采用稀疏激活架构,每次仅激活约40亿参数,兼顾性能与效率。

英伟达最强开源模型Nemotron 3 Ultra正式发布

英伟达最强开源模型Nemotron 3 Ultra正式发布

Nvidia正式发布了5500亿参数的开源混合专家模型Nemotron 3 Ultra,已上线Hugging Face、ModelScope等平台并提供免费接口。该模型采用潜在混合专家技术与Mamba 2架构,活跃参数压缩至550亿,支持最长100万token上下文窗口。模型针对长周期智能体任务优化,推理速度显著提升,并宣称可节省用户约30%的使用成本。在基准测试中,其性能领先同类美国开源模型,但仍略逊于部分中国模型。

Google开源高速文本扩散大语言模型DiffusionGemma

Google开源高速文本扩散大语言模型DiffusionGemma

谷歌今日发布并开源DiffusionGemma大语言模型,采用文本扩散技术,生成速度是传统LLM的四倍,且内存占用更低,支持消费级高端显卡运行。该模型基于图像生成的扩散原理,每次可并行生成256个token,在单块H100上速度超过每秒1000个token。DiffusionGemma拥有260亿参数,但每次仅激活38亿,结合NVFP4数据格式进一步降低显存需求。该模型已在Hugging Face上以开源许可证发布。

NVIDIA加速Google DeepMind的DiffusionGemma本地AI推理

NVIDIA加速Google DeepMind的DiffusionGemma本地AI推理

谷歌DeepMind发布了实验性开源模型DiffusionGemma,采用并行扩散方式生成文本,每步可同时处理最多256个token,而非逐词生成。NVIDIA对其进行了深度优化,使其在GeForce RTX GPU、RTX PRO工作站及DGX Spark等设备上实现更高性能。在单张H100 GPU上可达1000 tokens/秒,比同等自回归模型快约4倍。该模型基于Gemma 4架构,采用Apache 2.0开源协议,支持Hugging Face、vLLM等主流框架。

AI深度投入企业每月人均AI支出达7500美元

AI深度投入企业每月人均AI支出达7500美元

据Ramp AI指数最新研究,美国企业中AI投入最高的1%公司,每名员工每月AI支出达7500美元,被称为"AI狂热"企业。尽管这一数字相当可观,但仍低于软件工程师约16000美元的月均薪资。前10%的企业每员工月均支出约611美元,中位数仅为11.38美元。值得关注的是,"AI狂热"企业上月人均AI支出环比增长14.1%,这些企业倾向于混合使用多个前沿模型与开源平台以控制成本。

Claude Mythos 公开亮相,全新Fable 5模型正式发布并"适合大众使用"

Claude Mythos 公开亮相,全新Fable 5模型正式发布并"适合大众使用"

Anthropic正式推出Claude Fable 5,这是首款面向公众开放的"Mythos级"AI模型。该模型在软件工程、知识工作、视觉处理及科学研究等几乎所有测试基准上均达到业界领先水平。为应对网络安全风险,Anthropic内置了保护机制,敏感话题将由Claude Opus 4.8接管。此外,功能更强的Mythos 5将通过Project Glasswing向网络安全防御人员限量开放。Fable 5目前对Pro、Max、Team及企业用户开放至6月23日。

Claude Fable 5正式发布:首款面向大众开放的Mythos级AI模型

Claude Fable 5正式发布:首款面向大众开放的Mythos级AI模型

Anthropic正式推出Claude Fable 5,这是其Mythos家族中首个面向公众开放的AI模型。该模型在软件工程、知识工作及图像理解方面均有显著提升,同时内置网络安全防护机制,对网络攻击相关请求零容忍。由于算力需求是Opus系列的两倍,Anthropic将采取分阶段保守发布策略,初始开放窗口仅两周,后续需消耗付费积分使用。API定价为每百万输入token 10美元,输出50美元。

Claude Mythos 5与Fable 5发布,刷新AI性能基准记录

Claude Mythos 5与Fable 5发布,刷新AI性能基准记录

Anthropic正式推出Claude Mythos 5和Claude Fable 5两款大语言模型,在多项基准测试中超越竞品。Fable 5面向公众开放,内置安全护栏屏蔽网络安全等高风险请求;Mythos 5则面向有限机构开放,并与美国政府合作管理访问权限。Mythos 5是Claude系列首个能持续提出科学假设的模型,已在分子生物学领域取得实验验证成果。两款模型在SWE-Bench Pro编程基准上以80.3%得分创下纪录,定价较前代削减逾半。

OpenAI秘密递交IPO申请,AI行业前景成焦点

OpenAI秘密递交IPO申请,AI行业前景成焦点

OpenAI于周一正式确认已秘密向美国证券交易委员会递交S-1上市申请文件。公司表示尚未确定具体上市时间,但保留随时启动公开募股的选项。据《纽约时报》报道,此次IPO有望成为华尔街规模最大的上市项目之一。目前OpenAI估值高企,但长期处于亏损状态,其AI业务支出已超收入两倍以上。上市后,公司将面临更严格的财务透明度要求与监管审查,此次IPO也将成为检验AI商业模式可持续性的重要测试。

Claude Opus 4.8正式发布:支持算力调节、动态工作流与更强诚实性

Claude Opus 4.8正式发布:支持算力调节、动态工作流与更强诚实性

Anthropic发布旗舰模型Claude Opus 4.8,带来多项重要升级:用户可自定义模型的"努力程度",高努力模式下推理更深入,低努力模式响应更快;新增动态工作流功能(研究预览版),支持数百个并行子代理协同处理大规模编码任务;快速模式价格降至前代三分之一。此外,模型诚实性显著提升,欺骗率大幅降低。基准测试显示,Opus 4.8在智能体编码方面以69.2%领先GPT-5.5和Gemini 3.1 Pro,但在智能体终端编码上仍落后于OpenAI。

RTX Spark或将AI PC市场一分为二:主流笔记本与高端工作站的分野

RTX Spark或将AI PC市场一分为二:主流笔记本与高端工作站的分野

英伟达RTX Spark平台可提供高达1 PFLOPS的AI算力与128GB统一内存,支持本地运行1200亿参数大语言模型。该平台将由华硕、戴尔、惠普、联想、微软Surface及微星等厂商于今秋推出相应产品。分析师认为,RTX Spark短期内更可能定位为高端企业AI工作站,而非大众市场产品,目标用户主要为AI开发者、数据科学家及安全团队,预计售价超2000美元。

Anthropic申请IPO后呼吁AI放缓,但市场热情难以遏制

Anthropic申请IPO后呼吁AI放缓,但市场热情难以遏制

Anthropic本周提交IPO申请,同时发布声明呼吁AI开发者放缓步伐,以防AI自我进化速度超出人类社会承受能力。与此同时,SpaceX计划融资750亿美元,Snowflake、思科、微软、英伟达等巨头纷纷在各自大会上强化AI布局。本文汇总了本周企业科技领域的重要动态,涵盖融资、产品发布、政策监管及网络安全等多个方向。

Notion恢复对Anthropic模型的访问,此前曾发生服务中断

Notion恢复对Anthropic模型的访问,此前曾发生服务中断

本周末,Notion与Anthropic的集成出现临时服务中断,导致Anthropic旗下Opus 4.7和4.8模型在Notion AI中失败率升高,Notion随即暂停了所有Anthropic模型的使用。约12小时后,Notion产品负责人Max Schoening澄清,此次问题仅为临时性基础设施故障,并非模型质量问题,目前已恢复正常访问。Anthropic方面也确认,短暂的基础设施故障已修复,感谢用户耐心等待。

"Token启示录"时代真的来临了吗?

"Token启示录"时代真的来临了吗?

微软近期大幅调整GitHub Copilot定价策略,从固定费率改为按Token计费,引发业界震动,被网友戏称为"Token末日"。TechCrunch播客讨论指出,随着Anthropic等AI公司筹备IPO,盈利压力将推动更多AI产品涨价并限制用量。Uber等企业已因AI支出超预算而被迫设限。分析人士认为,AI实验室若要存活,必须像Uber一样经历深刻的商业模式转型,但降本之路更为艰难。

开发者仍在等待Meta最新AI模型的API访问权限

开发者仍在等待Meta最新AI模型的API访问权限

Meta于今年4月发布了其首款闭源大语言模型Muse Spark,并承诺API接口"即将推出",但两个月过去仍未兑现。Meta发言人表示API将于6月正式开放,目前已与部分早期合作伙伴展开测试。这是Meta首款非开源模型,无法像以往模型那样被自由使用。分析认为,API发布延迟可能影响外界对Meta实现AI商业化计划的信心。

Anthropic联合创始人:AI回报质疑不足为虑,IPO计划稳步推进

Anthropic联合创始人:AI回报质疑不足为虑,IPO计划稳步推进

Anthropic近期宣布以965亿美元估值完成融资,并已秘密提交IPO申请。联合创始人达妮拉·阿莫代在彭博科技大会上表示,上市决策主要出于资本需求,公共市场更适合支撑前沿模型训练的巨额成本。Anthropic年化营收已于5月突破470亿美元,较2025年底大幅增长。面对外界对AI投资回报的质疑,阿莫代认为企业仍处于探索AI应用的早期阶段,编程、金融、法律、医疗等领域将持续驱动价值释放。此外,Anthropic已与xAI签署算力合作协议,每月费用达12.5亿美元。

Meta追赶AI竞争对手的内部努力

Meta追赶AI竞争对手的内部努力

Meta聘请年轻创业者Alexandr Wang主导AI复兴计划,约一年时间内组建了精英研究团队TBD Lab,并推出首个重要模型Muse Spark。该模型在视觉理解方面获得认可,但在编程能力上仍落后于竞争对手。Wang在Meta内部推行创业文化,同时面临内部质疑和团队摩擦。Meta正投入数百亿美元用于AI研发,期望以此提升广告精准度并支撑AI助手、数字化身等多项业务。

Alphabet创850亿美元融资纪录,AI投资热度持续高涨

Alphabet创850亿美元融资纪录,AI投资热度持续高涨

Alphabet母公司谷歌完成了一笔创历史纪录的850亿美元股票发行。原计划首轮募资400亿美元,但因超额认购最终达450亿美元,伯克希尔·哈撒韦认购了其中100亿美元。所募资金将专项用于AI基础设施建设。此次融资成功对Anthropic等AI公司的IPO计划是积极信号,表明公共市场投资者对AI赛道仍保持强劲热情。未来五年全球AI支出承诺规模近8万亿美元,公共资本市场能否持续承接这一体量,是所有谋求上市的AI企业必须思考的核心问题。

科技巨头IPO竞赛升温,OpenAI是否已错失良机?

科技巨头IPO竞赛升温,OpenAI是否已错失良机?

随着Anthropic秘密提交IPO申请、SpaceX即将上市,科技巨头IPO竞赛进入白热化阶段。然而OpenAI却深陷困境:广告变现受阻、情色聊天机器人计划搁置,首季度营收虽达57亿美元,但每花1美元亏损1.22美元。尽管估值高达8520亿美元,其CFO对上市时机仍存疑虑。分析人士指出,资本市场容量有限,OpenAI若错过本轮IPO窗口,可能面临更大压力。