传统语音助手往往无法很好地服务于有语音障碍的用户。通过深度学习和迁移学习技术,新一代对话AI系统能够理解更广泛的语音模式。这些系统不仅能识别非标准语音,还能基于用户的语音样本生成个性化合成语音,帮助用户保持声音身份。实时语音增强技术能够改善发音、填补停顿,让AI成为对话中的助手。对于企业而言,构建包容性AI不仅是道德责任,也是巨大的市场机遇。
Deepgram发布了名为Saga的AI语音操作系统,专为开发者设计。该工具作为通用语音界面直接嵌入开发环境,允许开发者仅通过语音控制工具和代码。Saga集成了多种AI原生编码环境,包括Cursor和Windsurf,还可维护Linear、Asana、Jira等项目管理软件的状态更新。开发者可通过语音表达想法,如"创建一个响应表情符号的Slack机器人",Saga会将其转换为可执行的编程提示。该工具旨在减少开发者在工具间切换的"静默税收",提高开发效率。
谷歌在美国地区的iOS和Android应用中推出了AI搜索语音功能Search Live。用户需在实验室模式中开启AI功能,即可通过语音与搜索进行对话交流。该功能基于定制版Gemini驱动,支持连续语音问答和文本转换。谷歌称这适合用户在移动或多任务处理时使用。未来几个月还将支持实时图像识别和解答功能。不过此功能可能影响原始信息源网站的访问流量。
Wispr 的 Flow 是一款创新的 iOS 语音输入软件,借助 AI 技术能将语音无缝转换为精美文字,每周免费 2000 字,支持 100 多种语言,并能实现多设备同步。
BBC 的研发团队致力于利用技术为公共利益服务,从内容真实性验证、沉浸式媒体体验到 AI 语音转文字系统,实现跨行业创新,造福社会。
Spotify 的 AI DJ 允许付费用户通过语音请求播放符合心情、艺术风格、流派或活动氛围的歌曲。该功能由 OpenAI 实时生成语音,旨在融合个性化推荐与传统电台体验,但初期版本仅支持英文请求。
Yelp 正在测试基于 AI 的语音代理,通过 OpenAI Realtime API 与企业数据整合,实现自动接听电话、管理预订、过滤垃圾信息和通话分析,疑难问题由人工跟进,助力客户服务。
亚马逊推出了一款名为 Nova Sonic 的 AI 语音模型,它不仅能理解语音内容,还能捕捉说话者的语气、犹豫等细微变化。这个模型整合了语音识别、回复生成和语音合成功能,能够实现更自然的对话交互。Nova Sonic 可以根据说话者的语气调整回应,理解对话中的停顿,并能适当处理打断等情况,从而提供更智能、更人性化的语音交互体验。
aiOla 推出了一款名为 Jargonic 的新型自动语音识别模型,专为企业使用而设计。这个模型能够处理专业术语、背景噪音和各种口音,无需大量再训练或微调。Jargonic 采用独特的关键词识别系统,可以零样本适应企业特定词汇。在多项基准测试中,Jargonic 在准确性和专业术语识别方面都优于主要竞争对手。这款模型现已通过 API 向企业客户开放使用。
Observe.AI 正式推出 VoiceAI 智能语音助手,旨在自动化处理呼叫中心的日常客户交互。该解决方案集成了多项 AI 技术,包括语音识别、文本转语音和专有 AI 模型,可无缝对接企业现有系统。通过提供拟人化的语音服务,既能提升客户体验,又能大幅降低运营成本,帮助企业打造智能化客服中心。
OpenAI 发布三款全新专有语音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型基于 GPT-4o 开发,提供更准确的转录和语音合成能力,支持 100 多种语言,可通过 API 集成到第三方应用中。新模型在英语转录准确率方面表现出色,错误率仅为 2.46%,并支持语音定制和情感表达。
据报道,人工智能初创公司 Anthropic 正在为其 AI 聊天机器人 Claude 开发语音功能。公司首席产品官表示,计划推出允许用户与 AI 模型对话的体验。Anthropic 已进行内部原型开发,并与包括亚马逊在内的多个合作伙伴讨论,以加速语音功能的推出。这将使 Claude 的交互方式更加自然,为用户提供新的使用模式。
ElevenLabs是一家刚刚完成1.8亿美元融资的人工智能初创公司,主要以其音频生成能力而闻名。该公司通过推出首个独立的语音转文本模型Scribe,迈出了另一个技术方向。该初创公司估值为33亿美元,已帮助许多其他公司提供语音转文本服务,利用其庞大的声音库。然而,该公司现在希望进入语音检测领域,与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型竞争。
美国第一国民银行 (FNBO) 与语音安全专家 Pindrop 合作,采用创新技术来识别和验证客户身份。通过结合云端欺诈检测和身份认证系统,FNBO 实现了无摩擦的客户验证,提高了安全性和用户体验。该银行还在测试新的深度伪造检测功能,以应对日益严重的 AI 语音欺诈威胁。这种合作体现了银行业应对网络犯罪挑战的新趋势。
在显示技术上,Orion采用了碳化硅镜片和先进的光波导技术,结合Micro LED投影仪,提供了70度的视场角,这在小型AR眼镜中是前所未有的,为用户提供了更为沉浸式的体验。
多模态AI系统,融合语音对话和音频分析功能,支持超过8种语言和方言,无需自动语音识别即可进行语音交互,提供音频信息分析和多语言支持。
国际顶级学术会议ACM SIGKDD(国际数据挖掘与知识发现大会,KDD)正于美国华盛顿召开。会上,火山语音多篇论文被KDD 2022 Research track接收并发表,创新性地提出基于语音合成来有效攻击语音识别系统的新技术路径,用于高效并准确发现语音安全领域的新漏洞。