美团今日发布新一代开源大语言模型LongCat-2.0,参数量达1.6万亿,采用稀疏混合专家架构(MoE),支持100万token超长上下文窗口。该模型完全基于国产AI芯片集群训练,有效降低对英伟达GPU的依赖。美团表示,LongCat-2.0定位为AI智能体的"大脑"核心,在代码理解、自动化任务执行及长期目标管理等方面表现突出,其综合性能可与谷歌Gemini、GPT-5.5及Claude Opus等顶级闭源模型媲美。
英伟达发布了迄今为止最强大的AI模型Nemotron Super 3,专为大规模智能代理系统设计。该模型采用1200亿参数的混合专家架构,具备先进推理能力和快速处理速度。相比前代产品,吞吐量提升五倍,准确性翻倍。模型具有100万token上下文窗口,推理时仅激活120亿参数,在Blackwell GPU上运行可将推理速度提升四倍。
以色列 AI 初创公司 AI21 Labs 获得谷歌和英伟达3亿美元的 D 轮融资,进一步推进大型语言模型与企业级人工智能产品研发,总融资额达6.36亿美元。
Meta发布了Llama家族的新一代AI模型Llama 4,包括Scout、Maverick和Behemoth三个模型。这些模型在大量未标记的文本、图像和视频数据上进行训练,具备广泛的视觉理解能力。Llama 4采用混合专家架构,提高了计算效率。Meta表示,这标志着Llama生态系统新时代的开始,将为用户带来更强大的AI能力。
马斯克旗下大模型公司开发的Grok-1大语言模型已开源,采用Apache2.0协议。Grok-1是一个混合专家架构模型,参数总数3140亿,每次推理激活860亿。虽然在MMLU和GSM8K评测中表现不错,但与同类模型相比资源消耗大而收益不显著。开源的仅为推理代码,训练基础设施和tokenizer的特殊token作用未透露。