模型优化 关键字列表
OpenAI发布GPT-5.2挑战谷歌和Anthropic

OpenAI发布GPT-5.2挑战谷歌和Anthropic

OpenAI推出GPT-5.2模型,专为专业工作场景优化。新模型在创建电子表格、制作演示文稿、编写代码等方面表现更佳。GPT-5.2 Thinking版本在多项基准测试中超越前代产品,数学问题获得满分,事实性回答错误率降低30%。该发布被视为OpenAI对谷歌Gemini 3 Pro的"红色警报"回应,旨在重新夺回AI领域领先地位。

Runway与DeepSeek发布新一代基础模型,性能超越行业巨头算法

Runway与DeepSeek发布新一代基础模型,性能超越行业巨头算法

AI初创公司Runway和深度求索今日发布两款新基础模型,声称性能超越科技巨头算法。Runway的Gen-4.5提供文本转视频功能,在人工智能分析文本转视频基准测试中创下新纪录,能更好地遵循提示并生成更逼真的视频内容。深度求索发布的V3.2版本在编程和数学任务方面表现更优,采用新的注意力机制实现DSA,降低硬件使用率。两款模型均针对不同应用场景进行了优化。

Anthropic发布Opus 4.5版本,集成Chrome和Excel新功能

Anthropic发布Opus 4.5版本,集成Chrome和Excel新功能

Anthropic周一发布了旗舰模型Opus 4.5,这是4.5系列的最后一个模型。新版本在编程、工具使用和问题解决等基准测试中表现出色,是首个在SWE-Bench验证测试中得分超过80%的模型。同时推出Claude for Chrome和Claude for Excel产品,分别面向不同用户群体。Opus 4.5还改进了长文本处理的内存管理,支持付费用户的"无限聊天"功能,并针对智能体应用场景进行了优化,将与OpenAI的GPT 5.1和谷歌的Gemini 3展开竞争。

OpenAI GPT-5.1模型全面升级:个性化交互与推理能力双提升

OpenAI GPT-5.1模型全面升级:个性化交互与推理能力双提升

OpenAI宣布推出GPT-5的首个重大升级版本GPT-5.1,包含Instant和Thinking两个变体。新模型在对话风格上更加自然温暖,具备自适应推理能力,能根据问题复杂度调整思考深度。GPT-5.1提供八种个性化对话模式供用户选择,减少专业术语使用,提升易理解性。该升级旨在解决GPT-5发布后用户反馈的不足,将逐步向订阅用户推出。

OpenAI发布更智能温暖的GPT-5.1版本

OpenAI发布更智能温暖的GPT-5.1版本

OpenAI正式推出GPT-5.1,主打更温暖自然的对话风格和增强的智能水平。新版本包含即时模式和思考模式两种变体,其中思考模式在简单任务上速度更快,复杂任务上更持久。GPT-5.1默认采用更对话化的语调,并提供友好、高效、专业等多种个性化选项。模型在遵循特定指令方面也有显著改进。该更新首先面向付费用户推出,随后扩展至免费用户。

Google Veo 3.1视频生成模型升级,图像转视频能力增强

Google Veo 3.1视频生成模型升级,图像转视频能力增强

谷歌发布Veo 3.1 AI视频生成模型更新,显著改进了提示词遵循能力和图像转视频功能。新版本可同时生成视频和音频,并在Flow视频编辑器中新增"帧到视频"功能,用户可上传首尾帧自动生成中间内容。虽然在真实感方面仍不如OpenAI的Sora 2,但谷歌专注于为专业视频工作者提供实用工具的策略值得认可。

苹果全新语言模型实现超快速长文本生成

苹果全新语言模型实现超快速长文本生成

苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。

Liquid AI发布超小型高性能基础模型,专为设备端处理设计

Liquid AI发布超小型高性能基础模型,专为设备端处理设计

AI初创公司Liquid AI发布名为"Nanos"的突破性小型AI模型,参数规模在3.5亿到26亿之间,可在手机、笔记本和嵌入式设备上本地运行。该模型在专门任务上可达到GPT-4o级别性能,支持多语言翻译、数据提取、数学推理等功能。公司采用"液态神经网络"架构,使模型能以极小体积提供前沿级性能,实现设备端AI处理,确保隐私安全并降低成本。

Gemini"香蕉"AI图像编辑体验:有趣但问题不少

Gemini"香蕉"AI图像编辑体验:有趣但问题不少

谷歌发布的Gemini 2.5 Flash Image AI图像编辑模型被用户昵称为"纳米香蕉"。该模型在添加图像元素和保持人物一致性方面表现出色,处理速度快且自动添加水印。但存在明显局限:只能生成方形图像、会降低照片分辨率、难以处理复杂编辑任务如移除反射等。谷歌表示正在改进相关问题。该功能免费提供,付费用户可获得更多使用额度。

本地大语言模型崛起:为何用户开始选择自主部署AI

本地大语言模型崛起:为何用户开始选择自主部署AI

随着AI服务成本上升和数据隐私担忧加剧,越来越多用户开始尝试本地部署大语言模型。硬件性能提升和软件工具优化使得在个人设备上运行AI模型变得可行。通过量化技术降低模型精度要求,配合llama.cpp等开源工具,用户可在消费级硬件上运行各类专业模型。虽然本地模型在通用性上仍逊色于云端大模型,但在特定场景下已能满足需求,且在隐私保护和成本控制方面优势明显。

OpenAI与微软发布全新语音生成模型

OpenAI与微软发布全新语音生成模型

OpenAI和微软发布了两款新的语音人工智能模型。OpenAI的gpt-realtime被称为其最强语音模型,可生成更自然的语音并能在句中改变语调和语言。微软推出的MAI-Voice-1模型已集成到Copilot助手中,具有高硬件效率,单个GPU即可在一秒内生成一分钟音频。两家公司还发布了MAI-1-preview模型,采用专家混合架构提高效率。

Gemini 2.5 Flash Image企业级图像编辑一致性与精准控制升级

Gemini 2.5 Flash Image企业级图像编辑一致性与精准控制升级

Google正式发布Gemini 2.5 Flash Image模型,该模型此前在测试版中被称为nanobanana。新模型为企业创意项目提供更多选择,能够快速修改图像外观并提供比以往模型更强的控制能力。该模型在保持人物相似度和编辑一致性方面表现出色,支持多轮编辑、照片融合等功能,并已集成到Gemini应用中供付费和免费用户使用。

Gemini 2.5 Flash Image发布,图像编辑精度大幅提升

Gemini 2.5 Flash Image发布,图像编辑精度大幅提升

谷歌升级Gemini聊天机器人,推出新的AI图像模型Gemini 2.5 Flash Image,让用户能更精确地控制照片编辑。该模型基于自然语言请求进行图像编辑,同时保持面部、动物等细节的一致性,解决了竞争对手工具的常见问题。新工具在LMArena等基准测试中表现出色,专为消费者使用场景设计,支持多轮对话和多参考融合功能,并配备安全防护措施防止不当内容生成。

使用Llama.cpp在家中私密运行大语言模型

使用Llama.cpp在家中私密运行大语言模型

本文详细介绍了如何使用Llama.cpp在个人电脑上本地运行大语言模型。内容涵盖了Llama.cpp的安装配置、模型部署、性能优化、量化压缩、推测解码、工具调用等核心功能。文章指出虽然训练大模型需要巨额投资,但运行已训练好的模型在普通硬件上是完全可行的。通过Llama.cpp,用户可以获得无限制的本地AI服务,避免数据上传云端,同时享受更好的性能和更多定制选项。

Hugging Face:企业在不牺牲性能下降低AI成本的5种方法

Hugging Face:企业在不牺牲性能下降低AI成本的5种方法

企业普遍认为AI模型需要大量算力,但Hugging Face专家认为应该更智能地使用AI。五个关键策略包括:为特定任务选择合适规模的模型而非通用大模型;将效率设为默认选项,避免不必要的高成本计算模式;通过批处理和精度调整优化硬件利用;推广能耗透明度评级系统;重新思考"更多算力更好"的观念,专注于智能架构和优质数据而非简单扩大GPU集群规模。

Anthropic的Claude AI模型现可处理更长的提示内容

Anthropic的Claude AI模型现可处理更长的提示内容

Anthropic宣布为企业客户增加Claude单次提示词的信息处理量,以吸引更多开发者使用其AI编程模型。Claude Sonnet 4现支持100万token上下文窗口,可处理75万词或7.5万行代码的请求,是此前限制的5倍,超过OpenAI GPT-5的40万token。该功能也将通过Amazon Bedrock和Google Cloud等云合作伙伴提供。更大的上下文窗口有助于AI模型更好地处理软件工程问题和长期自主编程任务。

谷歌Gemini AI家族迎来重大更新:2.5 Pro稳定版发布

谷歌Gemini AI家族迎来重大更新:2.5 Pro稳定版发布

谷歌宣布大幅扩展Gemini AI模型家族,高性能的Gemini 2.5 Pro经过数月调优后正式退出预览版,面向开发者开放。同时推出预览版高效模型Gemini 2.5 Flash-Lite,成本仅为2.5 Flash的三分之一。所有2.5模型均支持可调节的思考预算功能,为开发者提供更好的成本控制。Flash和Flash-Lite已集成到搜索功能中,根据查询复杂度智能选择合适模型。

Google 推出性能更快、更高效的 Gemini AI 模型

Google 推出性能更快、更高效的 Gemini AI 模型

Google 推出 Gemini 2.5 Flash 模型,基于 Gemini 2.5 Pro 代码,但运行更快、成本更低。新模型引入动态思考技术,可根据查询复杂度调整推理深度,提高响应速度并降低成本。Google 还将 Gemini 2.5 Pro 应用于 Deep Research 工具,显著提升了其准确性和实用性。这些进展有望降低生成式 AI 的高昂成本,推动其更广泛应用。

xAI 公司推出 Grok 3 API 服务

xAI 公司推出 Grok 3 API 服务

xAI 公司推出了旗舰模型 Grok 3 的 API,提供 Grok 3 和 Grok 3 Mini 两个版本。Grok 3 定价较高,但具有图像分析和问答能力。尽管马斯克此前宣称 Grok 模型不受限制,但实际表现较为中立。xAI 承诺将 Grok 调整为政治中立,但长期影响尚不明确。

Google 新实验性 Gemini 2.5 模型向免费用户开放

Google 新实验性 Gemini 2.5 模型向免费用户开放

Google 推出最新的 Gemini 2.5 Pro (实验版) AI 模型,并以罕见的速度向免费用户开放。该模型支持模拟推理,提高了准确性,并在 LMSYS 聊天机器人竞技场排行榜上名列前茅。免费用户可在网页上试用,但有使用限制,无法上传文件,且有未明确的token和使用次数限制。