阿里巴巴开源了320亿参数的大语言模型Qwen1.5-32B,性能略超Mixtral 8×7B MoE,略低于720亿参数的Qwen-1.5-72B。Qwen1.5-32B具有高性价比,显存需求减半,适合更广泛使用。模型在多项评测中表现优秀,特别是在推理和数学方面。支持32K上下文长度,以通义千问的开源协议发布,允许商用。
马斯克旗下大模型公司开发的Grok-1大语言模型已开源,采用Apache2.0协议。Grok-1是一个混合专家架构模型,参数总数3140亿,每次推理激活860亿。虽然在MMLU和GSM8K评测中表现不错,但与同类模型相比资源消耗大而收益不显著。开源的仅为推理代码,训练基础设施和tokenizer的特殊token作用未透露。
HuggingFace宣布将加大对GGUF格式的大模型文件的支持。GGUF(GPT-Generated Unified Format)是一种高效存储和交换大模型预训练结果的二进制格式,由llama.cpp创始人Georgi Gerganov定义。HuggingFace的支持包括模型检索过滤、预览GGUF元数据和提供工具支持网站显示平台GGUF格式模型信息。这显示了开源社区对大模型的重要贡献和国外开源生态的互相融合。
当前的GPT-4等模型已经在代码补全和生成方面为程序员节省了大量的时间。但是,大多数编程领域的大模型应用都是单行代码补全或者单个函数生成的方式。
OpenAI开源了Transformer Debugger,这是一个可视化工具,用于帮助开发者调测和理解大型语言模型的推理过程。工具通过可视化展示模型的神经元、注意力机制和自编码器的激活情况,提供对模型行为的解释。Transformer Debugger包括神经元观察器、激活服务器、模型库和汇总激活数据集等组件。
Anthropic推出了第三代大语言模型Claude3,包含三个版本:Claude3-Opus、Claude3-Sonnet和Claude3-Haiku,能力和成本递减。Claude3-Opus在多项评测中超过GPT-4,支持多模态和最高100万上下文输入。