谷歌和Cohere今日发布了针对音频处理任务优化的新型人工智能模型。谷歌的Gemini 3.1 Flash Live可自动化客服交互,能检测用户情绪并调整响应,支持语音、图像等多模态输入。该模型在ComplexFuncBench Audio基准测试中得分90.8%,较前代提升近20%。Cohere Transcribe专注语音转录,平均词错率仅5.42%,在Hugging Face开放ASR排行榜位居第一,采用开源Apache 2.0许可证。
谷歌发布基于Gemini 3的快速低成本模型Flash,并将其设为Gemini应用和AI搜索的默认模型。新模型在多项基准测试中表现优异,在MMMU-Pro多模态推理测试中得分81.2%超越所有竞品。该模型已向全球用户开放,并通过Vertex AI和API向企业及开发者提供服务。定价为每百万输入token 0.5美元,输出token 3美元,速度比2.5 Pro快三倍且更节省token用量。