模型优化文章列表第2页-至顶网频道

2025-03-14

Cohere 发布仅需两块 GPU 的低成本 AI 模型

Cohere 推出新型大语言模型 Command A，具有高性能且硬件需求低。该模型性能超越 GPT-4o 和 DeepSeek-V3，仅需两块 GPU 即可运行。它拥有更大的上下文窗口，处理速度更快，专为企业级 AI 代理设计，可与 Cohere 的安全 AI 代理平台 North 无缝集成，帮助企业用户充分发挥公司数据潜力。

专家链模型 (CoE)：一个提高效率和准确性的低成本大语言模型框架

专家链（CoE）是一种新型大语言模型框架，通过顺序激活专门化的模型元素来提高资源效率和推理任务准确性。与传统方法相比，CoE允许专家元素相互传递中间结果，逐步建立推理链，从而在推理密集型应用中实现更高效的计算和更好的用户体验，同时大幅降低企业运行大型语言模型的成本。

生成式 AI 需要合成数据，我们需要确保其可信度

生成式 AI 模型需要大量真实数据训练，但互联网上的内容仍不足以应对所有情况。为继续发展，这些模型需要使用模拟或合成数据进行训练。专家指出，AI 开发者必须负责任地使用合成数据，否则可能会迅速出现问题。合成数据可以教导模型应对现有数据中不存在的场景，但关键是要确保这些数据可靠且符合现实。

微软据报道开发出可与 OpenAI、Anthropic 模型媲美的大语言模型系列

微软公司据报道已开发出一系列大型语言模型，可与 OpenAI 和 Anthropic 的算法相媲美。这个名为 MAI 的 LLM 系列可能使用了微软内部开发的 AI 芯片 Maia 100。测试结果显示，MAI 在性能上具有竞争力，可能用于支持微软的 Copilot AI 助手系列。此举或将减少微软对 OpenAI 的依赖，同时公司也在开发专注于推理任务的第二个 LLM 系列。

Alibaba 新开源模型 QwQ-32B：以更小算力匹敌 DeepSeek-R1

阿里巴巴旗下的 Qwen 团队推出了 QwQ-32B，这是一款拥有 320 亿参数的推理模型，旨在通过强化学习提升复杂问题解决任务的表现。该模型在 Hugging Face 和 ModelScope 上以开源权重形式发布，适用于商业和研究用途，企业可以立即将其应用于产品和应用程序中。

Google 在其搜索引擎中推出 Gemini 2.0 和 AI 模式

谷歌今天推出了两项新的人工智能功能，旨在帮助用户更快速地找到信息。第一项是增强版的 AI 概述功能，该功能在标准搜索结果上方显示自然语言响应。谷歌将这一功能切换到最新的 Gemini 2.0 大型语言模型系列。该系列的最强算法 Gemini 2.0 Pro 支持多达 200 万个标记的提示，能够更好地理解复杂查询、生成代码并进行推理。AI 概述功能预计将为美国用户提供更准确的响应。

DeepSeek 声称其"推理"模型在某些基准测试上超越 OpenAI 的 o1

中国人工智能实验室深度思考发布了其所谓的推理模型DeepSeek-R1的开放版本，声称在某些人工智能基准测试中表现与OpenAI的o1相当。R1在AI开发平台Hugging Face上以MIT许可证提供，意味着可以在商业上无限制使用。深度思考表示，R1在AIME、MATH-500和SWE-bench Verified基准测试中超越了o1。AIME使用其他模型来评估模型的性能，而MATH-500是一个包含文字问题的集合。SWE-bench Verified则专注于编程任务。

人工智能

深度学习

模型优化

2025-03-04

AI 公司效仿 DeepSeek，通过"蒸馏"技术打造低成本模型

领先的 AI 公司正在采用"蒸馏"技术，以创造更便宜、更易采用的 AI 模型。这种技术在 DeepSeek 成功应用后引起广泛关注，引发了硅谷 AI 领导地位的动摇。蒸馏技术通过将大型语言模型的知识转移到小型模型中，实现了高效且经济的 AI 应用。这一突破为初创公司和开发者提供了更多机会，同时也对现有 AI 公司的商业模式构成了挑战。

人工智能

自然语言处理

模型优化

2025-03-03

GPT-4.5 企业版：其准确性和知识储备是否值得高昂成本？

OpenAI推出的GPT-4.5企业版引发了争议，其高昂价格让许多人质疑其性价比。然而，作为OpenAI最大且最强大的非推理模型，GPT-4.5在知识储备、文档处理、任务规划等方面表现出色。尽管成本高昂，但随着推理成本的下降和未来潜在的强化学习训练，GPT-4.5仍有望成为企业应用的有力工具。

人工智能

自然语言处理

模型优化

2025-02-28

OpenAI 宣布新版 ChatGPT 4.5 具备更强的情感智能

OpenAI 发布 ChatGPT 4.5 预览版，承诺对话更自然、情感智能更强、知识面更广。新模型能更好理解语境和细微差别，创造力和协作能力提升，幻觉现象减少。这一升级体现了 AI 向着匹敌甚至超越人类能力的目标迈进，为未来更强大的 GPT-5 奠定基础。

人工智能

深度学习

模型优化

2025-02-28

Tencent 发布新 AI 模型，称速度快于 DeepSeek-R1

腾讯推出新AI模型"混元Turbo S"，定位为"快思考模型"，旨在与DeepSeek-R1等"慢思考模型"竞争。该模型通过提高输出速度和减少首字延迟，实现近乎"即时回复"。混元Turbo S融合了直觉式短思考链和理性推理长思考链，在数学、推理和知识等方面表现可比肩主流AI模型。腾讯采用混合Mamba-Transformer架构，提高效率并降低成本，有望成为未来基础模型的核心。

人工智能

大语言模型

模型优化

2025-02-28

OpenAI 发布 GPT-4.5，但表示这并非前沿 AI 模型

OpenAI 今日推出最新最大的 AI 语言模型 GPT-4.5。该模型将首先向 ChatGPT Pro 用户提供研究预览。虽然 OpenAI 称其为"最具知识性的模型"，但也警告 GPT-4.5 并非前沿模型，可能无法超越 o1 或 o3-mini 的表现。GPT-4.5 在写作、知识储备和个性方面有所提升，但不会引入足够的新功能被视为前沿模型。

人工智能

语音识别

模型优化

2025-02-28

ElevenLabs 推出自研语音转文本模型

ElevenLabs是一家刚刚完成1.8亿美元融资的人工智能初创公司，主要以其音频生成能力而闻名。该公司通过推出首个独立的语音转文本模型Scribe，迈出了另一个技术方向。该初创公司估值为33亿美元，已帮助许多其他公司提供语音转文本服务，利用其庞大的声音库。然而，该公司现在希望进入语音检测领域，与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型竞争。

人工智能

大语言模型

模型优化

2025-02-28

OpenAI 发布迄今最大规模的 AI 模型 GPT-4.5 "Orion"

OpenAI 推出代号"Orion"的 GPT-4.5 模型，这是公司迄今最大规模的 AI 模型。GPT-4.5 在计算能力和训练数据方面均超越以往版本，但 OpenAI 并不认为它是前沿模型。该模型将逐步向付费用户开放，但运营成本高昂。尽管在某些基准测试中表现出色，但 GPT-4.5 在部分任务上仍落后于其他 AI 推理模型，凸显了传统预训练方法的局限性。

人工智能

深度学习

模型优化

2025-02-27

IBM 发布新的 Granite 3.2 系列模型，实现按需推理能力

IBM 公司今天推出了新的 Granite AI 模型系列，具备实验性推理、视觉和预测能力，旨在在企业人工智能市场中占据一席之地。所有 Granite 模型均在 Apache 2.0 开源许可证下开放，现已在 Hugging Face 和 IBM watson.ai 等平台上提供。新系列的旗舰产品是 Granite 3.2 Instruct 变体，支持文本处理，能够执行摘要、问题解决和代码生成等任务，并设计为遵循指令。

人工智能

自然语言处理

模型优化

2025-02-26

Grok 3 似乎正推动 Grok 使用量创下新高

埃隆·马斯克的人工智能公司 xAI 推出了备受期待的旗舰 AI 模型 Grok 3。新模型推出后，Grok 应用的下载量和活跃用户数大幅增长。然而，近期围绕 Grok 3 的争议可能会影响用户的热情。能否保持增长势头并留住用户，成为 xAI 面临的重要挑战。

人工智能

深度学习

模型优化

2025-02-06

Google 扩大 Gemini 2.0 AI 模型的使用范围并推出实验版本

Google 宣布扩展 Gemini AI 模型系列，增加现有模型的可用性。公司推出了更新的 Gemini 2.0 Flash 模型，并发布了 2.0 Pro 和 2.0 Flash Thinking 的实验版本。此外，Google 还推出了新的 2.0 Flash-Lite 模型，旨在提供最具成本效益的 AI 解决方案。这些举措旨在提升 AI 性能，并为开发者和用户提供更多选择。

人工智能

机器学习推理

模型优化

2025-02-05

OpenAI 发布 o3-mini 推理模型供公众使用

OpenAI 发布了其 o3-mini 大语言模型，这是一款低成本、高速的推理优化模型。它在 ChatGPT 多个版本中可用，并通过 API 向开发者开放。o3-mini 在性能测试中表现出色，显示出 OpenAI 在推理模型领域的持续进展。

报告：OpenAI 有望通过 400 亿美元新融资使估值翻倍至 3400 亿美元

人工智能

大语言模型

模型优化

2025-02-04

报告：OpenAI 有望通过 400 亿美元新融资使估值翻倍至 3400 亿美元

OpenAI正寻求400亿美元新一轮融资，估值或达3400亿美元。软银可能领投150-250亿美元，并协助寻找其他投资者。这笔资金将用于支持亏损业务运营和建设AI数据中心网络，以应对来自竞争对手的挑战，推动AI技术进步。

人工智能

大语言模型

模型优化

2025-02-03

Mistral 和 Ai2 发布新的开源大语言模型

Mistral AI 和艾伦人工智能研究所发布了新的开源大语言模型。Mistral Small 3 拥有 240 亿参数，可在某些 MacBook 上运行。AI2 的 Tülu 3 405B 是基于 Meta 的 Llama 3.1 405B 模型改进而来。两个模型都声称在各自类别中处于领先地位，并以开源许可发布。

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: