推理优化 关键字列表
Tensormesh获Nvidia、AMD和CoreWeave投资,解决AI模型内存问题

Tensormesh获Nvidia、AMD和CoreWeave投资,解决AI模型内存问题

AI基础设施初创公司Tensormesh完成2000万美元融资,投资方包括英伟达、AMD和CoreWeave及多家风投机构,累计融资额达2450万美元。该公司通过KV缓存技术,将大语言模型处理提示词时产生的中间数据存储复用,避免GPU重复计算,可将推理延迟和算力成本降低10倍。其旗舰SaaS产品Tensormesh Inference已正式发布,支持无服务器API、专用GPU及企业定制化部署,部分用户缓存命中率已超70%。

博通与FuriosaAI押注以太网AI架构

博通与FuriosaAI押注以太网AI架构

博通与韩国AI基础设施初创公司FuriosaAI合作构建机架级推理平台,旨在突破当前GPU主导的AI架构。该平台结合FuriosaAI第三代张量收缩处理器与博通的网络、封装和互连技术,针对超大规模AI部署打造多芯片推理系统。随着推理工作负载扩展速度超越训练环境,该合作反映出AI基础设施正从单服务器优化转向机架级网络架构,以太网架构成为核心。

Google发布TurboQuant技术,缓解AI推理内存瓶颈

Google发布TurboQuant技术,缓解AI推理内存瓶颈

谷歌发布TurboQuant技术,通过压缩大模型推理中的键值缓存来提升AI模型运行效率。在Gemma和Mistral模型测试中,该技术在英伟达H100硬件上实现6倍内存节省和8倍注意力计算加速,且无精度损失。该技术针对现代AI系统中成本最高的两个组件:大模型推理的键值缓存和向量搜索操作。

谷歌推出TurboQuant技术破解AI推理性能瓶颈

谷歌推出TurboQuant技术破解AI推理性能瓶颈

Google发布TurboQuant方法,通过压缩大语言模型推理中的键值缓存来提升AI模型运行效率。在Gemma和Mistral模型测试中,该技术在不影响准确性的前提下实现了显著的内存节省和运行加速,在英伟达H100硬件上内存使用量减少6倍,注意力逻辑计算速度提升8倍。分析师认为这项技术能帮助企业在现有硬件上运行更长的上下文窗口,提高并发性能。

韩国Rebellions获4亿美元融资,瞄准美国AI推理市场

韩国Rebellions获4亿美元融资,瞄准美国AI推理市场

韩国AI硬件初创公司Rebellions在IPO前融资轮中筹集4亿美元,由未来资产金融集团领投。该公司专注于AI推理芯片,认为推理将定义AI采用的下一阶段。其核心产品包括Rebel-Quad和Atom AI加速器,采用软件为中心的架构,集成开源框架。公司正扩展美国市场,目标客户包括政府机构和大型企业,通过RebelRack等全栈基础设施产品,在功耗效率和成本控制方面提供优势。

英伟达发布Groq 3语言处理单元,专为多智能体工作负载设计的推理芯片

英伟达发布Groq 3语言处理单元,专为多智能体工作负载设计的推理芯片

英伟达在GTC 2026开发者大会上发布了全新Groq 3语言处理单元,这是一款专为多智能体工作负载设计的推理芯片。该芯片基于英伟达200亿美元收购Groq公司的技术授权开发,专注于AI推理而非训练。Groq 3 LPX服务器机架包含256个LPU,提供128GB固态随机存取内存和每秒40PB带宽。与Vera Rubin NVL72机架配合使用,可将每兆瓦功率的吞吐量提升35倍,支持万亿参数模型和百万令牌上下文处理。

英伟达推出大规模AI训练和推理平台Dynamo 1.0

英伟达推出大规模AI训练和推理平台Dynamo 1.0

英伟达在GPU技术大会上发布开源平台Dynamo 1.0,专为大规模AI部署优化。该平台旨在解决企业AI面临的复杂生成式和智能体工作负载高效运行难题。英伟达表示推理经济性与模型性能同等重要,Dynamo可实现10倍功耗吞吐量提升。平台支持智能体AI的"第四扩展定律",处理AI间高速交互需求。Dynamo通过GPU资源重新分配和智能路由优化,最大化GPU集群利用率,降低推理成本。

AI推理Token经济学的复杂科学原理解析

AI推理Token经济学的复杂科学原理解析

AI数据中心如同工厂,电力输入,令牌输出。推理经济学看似简单却暗藏复杂性:每瓦特生成更多令牌意味着更高收益。然而并非所有令牌都相等,需要在吞吐量、用户交互性和成本之间找到平衡。软件优化、分解计算架构和专家混合模型正推动机架规模系统发展。从FP8到FP4精度的转变带来显著性能提升,但量化可能影响模型准确性。对于开放权重模型服务商而言,这是一场竞相降低成本的竞争。

领先推理服务商采用NVIDIA Blackwell开源模型将AI成本降低10倍

领先推理服务商采用NVIDIA Blackwell开源模型将AI成本降低10倍

多家领先AI推理服务商通过NVIDIA Blackwell平台大幅降低token成本。Baseten、DeepInfra、Fireworks AI和Together AI等公司将开源前沿模型与Blackwell硬件结合,为各行业客户实现高达10倍的成本削减。在医疗、游戏和客服等领域的应用案例显示,推理成本显著下降的同时响应速度明显提升,验证了基础设施效率改进对AI经济性的重要作用。

Clarifai新推理引擎让AI模型运行速度翻倍成本降低40%

Clarifai新推理引擎让AI模型运行速度翻倍成本降低40%

AI平台公司Clarifai发布新推理引擎,声称能让AI模型运行速度提升一倍,成本降低40%。该系统采用多种优化技术,从CUDA内核到高级推测解码,能在相同硬件上获得更强推理性能。第三方测试显示其在吞吐量和延迟方面创下行业最佳记录。该产品专门针对推理过程优化,特别适用于需要多步骤响应的智能体和推理模型。

OpenAI与Anthropic发布推理优化大语言模型

OpenAI与Anthropic发布推理优化大语言模型

OpenAI发布两款开源推理模型gpt-oss-120b和gpt-oss-20b,分别具有1170亿和210亿参数,可运行代码并与外部系统交互。其中20b版本仅需16GB显存,适合设备端部署。同时Anthropic推出Claude Opus 4.1升级版,在编程能力测试中得分提升至74.5%,并改进了研究和数据分析功能。

Deep Cogito发布四款开源混合推理大语言模型,具备自我改进"直觉"能力

Deep Cogito发布四款开源混合推理大语言模型,具备自我改进"直觉"能力

旧金山AI研究初创公司Deep Cogito发布四款新的大语言模型,参数规模从700亿到6710亿不等。这些模型采用混合推理系统设计,能够学习更有效的推理方式并自我改进。通过迭代蒸馏放大技术,模型将推理过程内化到训练中,发展出"机器直觉",使用比同类模型短60%的推理链条就能达到相似性能。模型在数学、法律推理和多跳问题等任务中表现出色,训练成本仅350万美元。

AlphaOne 为 AI 开发者提供控制大语言模型"思考"的新旋钮,提升性能表现

AlphaOne 为 AI 开发者提供控制大语言模型"思考"的新旋钮,提升性能表现

AlphaOne 框架使开发者能在模型推理过程中灵活调节“慢思考”与“快思考”,从而提高复杂任务的准确性与效率,同时降低计算成本。

Google Gemini 2.5 成为最新对标 DeepSeek R1 的模型

Google Gemini 2.5 成为最新对标 DeepSeek R1 的模型

Google 发布新一代 AI 模型 Gemini 2.5,在 LMArena 评测中位居榜首。该模型采用递归分析方法提供输出,在推理、科学、数学和代码生成等方面表现出色。目前已向付费高级用户开放使用,并将在 2025 年投入 750 亿美元用于 AI 开发,以争夺未来万亿规模的 AI 市场。

Elon Musk 的 xAI 为 Grok-3 增添"大脑"推理能力

Elon Musk 的 xAI 为 Grok-3 增添"大脑"推理能力

xAI 推出新一代人工智能模型 Grok-3,计算能力大幅提升,新增高级推理功能。该模型在初步测试中表现优于同类产品,并推出"思考"和"大脑"两种推理模式。xAI 还将推出名为"深度搜索"的 AI 代理产品。Grok-3 致力于追求真相,即使可能与政治正确相悖。

Microsoft 不讲理?不,是让 Copilot 更会"讲理"了:免费集成 OpenAI GPT-o1

Microsoft 不讲理?不,是让 Copilot 更会"讲理"了:免费集成 OpenAI GPT-o1

微软宣布将OpenAI的GPT-o1推理模型免费集成到Copilot中,增强其推理能力。这一决定紧随Microsoft 365涨价和竞争对手DeepSeek发布免费开源AI模型之后。GPT-o1作为链式思考模型,可通过产生中间输出来改善结果质量。此举旨在应对市场竞争,但也引发了对"免费"定义的争议。