谷歌和Cohere今日发布了针对音频处理任务优化的新型人工智能模型。谷歌的Gemini 3.1 Flash Live可自动化客服交互,能检测用户情绪并调整响应,支持语音、图像等多模态输入。该模型在ComplexFuncBench Audio基准测试中得分90.8%,较前代提升近20%。Cohere Transcribe专注语音转录,平均词错率仅5.42%,在Hugging Face开放ASR排行榜位居第一,采用开源Apache 2.0许可证。