语音识别文章列表第1页-至顶网频道

2025-11-07

aiOla发布Drax模型，在噪音环境中实现可靠的AI语音识别

人工智能初创公司aiOla推出基于流匹配训练技术的语音AI模型Drax，挑战OpenAI和阿里巴巴等巨头。该模型重新定义语音算法训练方式，能在嘈杂环境中准确识别语音，兼顾速度与准确性。相比OpenAI的Whisper和阿里巴巴Qwen2，Drax采用并行流处理技术，速度提升32倍，词错误率仅7.4%。该模型已在GitHub开源，提供三种规模版本。

Stream Ring：这枚智能戒指能悄悄记录你的想法

Sandbar公司推出Stream Ring智能戒指，专为随时记录灵感而设计。用户只需轻触戒指并轻声说话，即可将想法转录为笔记。该产品采用个性化数字语音技术，创造如自言自语般的体验。不同于传统AI助手，Stream Ring专注于认知扩展而非替代思考。产品配备全天候电池，支持私密范围内的语音识别。银色版售价249美元，金色版299美元，计划2026年夏季发货。

Gemini应用程序终于扩展至音频文件支持

谷歌Gemini应用迎来重要更新，新增音频文件处理功能。用户现在可以直接在应用中上传和处理各类音频文件，这一功能扩展大大提升了Gemini的多媒体处理能力，为用户提供更加全面的AI助手体验。

Timekettle共享翻译耳机正式发布

时光壶公司发布了全新的翻译耳机产品，这款耳机的最大特色是专为分享设计。用户可以与他人共享使用，实现实时语言翻译功能，打破语言沟通障碍。该产品采用先进的翻译技术，支持多种语言互译，为跨语言交流提供了便捷解决方案，特别适合旅行、商务会谈等场景使用。

亚马逊收购AI可穿戴设备Bee，实现全天候语音记录

亚马逊宣布收购AI可穿戴设备初创公司Bee，该公司开发了能记录用户所有对话的智能手环和Apple Watch应用。Bee产品售价49.99美元，通过监听对话为用户创建提醒和待办事项。此次收购显示亚马逊对可穿戴AI设备的兴趣，有别于其Echo音箱等家用语音助手产品。尽管Bee承诺保护用户隐私，但此类产品仍存在安全和隐私风险，特别是在被整合到亚马逊生态系统后。

Krisp推出VIVA开发工具包提升语音智能体精准度

语音AI解决方案提供商Krisp发布了VIVA语音隔离AI模型和软件开发工具包，专为语音AI智能体设计。VIVA每月处理超过10亿分钟的语音音频，能在20毫秒内处理音频，将对话轮转准确性提升3.5倍，减少50%的通话中断。该工具可过滤背景噪音和笑声，避免AI误判，提升转录准确性和用户体验。

Mistral发布首个开源AI音频模型Voxtral

法国AI初创公司Mistral发布首个音频模型家族Voxtral，旨在为企业提供真正可用的语音智能解决方案。该模型可转录30分钟音频，理解40分钟内容，支持问答、摘要生成和语音命令执行。Voxtral支持英语、西班牙语、法语等8种语言，提供24B参数的Small版本和3B参数的Mini版本。定价从每分钟0.001美元起，声称成本不到同类方案的一半。

打造能倾听所有人的语音AI：迁移学习与合成语音的实践应用

传统语音助手往往无法很好地服务于有语音障碍的用户。通过深度学习和迁移学习技术，新一代对话AI系统能够理解更广泛的语音模式。这些系统不仅能识别非标准语音，还能基于用户的语音样本生成个性化合成语音，帮助用户保持声音身份。实时语音增强技术能够改善发音、填补停顿，让AI成为对话中的助手。对于企业而言，构建包容性AI不仅是道德责任，也是巨大的市场机遇。

Deepgram发布了名为Saga的AI语音操作系统，专为开发者设计。该工具作为通用语音界面直接嵌入开发环境，允许开发者仅通过语音控制工具和代码。Saga集成了多种AI原生编码环境，包括Cursor和Windsurf，还可维护Linear、Asana、Jira等项目管理软件的状态更新。开发者可通过语音表达想法，如"创建一个响应表情符号的Slack机器人"，Saga会将其转换为可执行的编程提示。该工具旨在减少开发者在工具间切换的"静默税收"，提高开发效率。

人工智能

语音识别

定制化模型

2025-06-19

谷歌AI搜索实时语音功能正式上线

谷歌在美国地区的iOS和Android应用中推出了AI搜索语音功能Search Live。用户需在实验室模式中开启AI功能，即可通过语音与搜索进行对话交流。该功能基于定制版Gemini驱动，支持连续语音问答和文本转换。谷歌称这适合用户在移动或多任务处理时使用。未来几个月还将支持实时图像识别和解答功能。不过此功能可能影响原始信息源网站的访问流量。

人工智能

语音识别

新型算法

2025-06-09

Wispr 的 Flow 语音转写软件现已可在 iPhone 上使用

Wispr 的 Flow 是一款创新的 iOS 语音输入软件，借助 AI 技术能将语音无缝转换为精美文字，每周免费 2000 字，支持 100 多种语言，并能实现多设备同步。

人工智能

语音识别

内容验证

2025-05-21

BBC内部访谈：驱动技术创新在BBC

BBC 的研发团队致力于利用技术为公共利益服务，从内容真实性验证、沉浸式媒体体验到 AI 语音转文字系统，实现跨行业创新，造福社会。

人工智能

语音识别

即时生成

2025-05-16

Spotify 的 AI DJ 现已支持点歌

Spotify 的 AI DJ 允许付费用户通过语音请求播放符合心情、艺术风格、流派或活动氛围的歌曲。该功能由 OpenAI 实时生成语音，旨在融合个性化推荐与传统电台体验，但初期版本仅支持英文请求。

人工智能

语音识别

语音助手应用

2025-04-30

Yelp 推出针对餐厅及服务提供商的 AI 语音助手

Yelp 正在测试基于 AI 的语音代理，通过 OpenAI Realtime API 与企业数据整合，实现自动接听电话、管理预订、过滤垃圾信息和通话分析，疑难问题由人工跟进，助力客户服务。

人工智能

语音识别

多模态交互

2025-04-11

Amazon Nova Sonic AI 不只是听懂你说什么，还能理解你的语气

亚马逊推出了一款名为 Nova Sonic 的 AI 语音模型，它不仅能理解语音内容，还能捕捉说话者的语气、犹豫等细微变化。这个模型整合了语音识别、回复生成和语音合成功能，能够实现更自然的对话交互。Nova Sonic 可以根据说话者的语气调整回应，理解对话中的停顿，并能适当处理打断等情况，从而提供更智能、更人性化的语音交互体验。

企业专用 AI 语音模型新秀：aiOla 推出 Jargonic，号称在企业术语识别方面优于竞品

人工智能

语音识别

零样本学习

2025-04-01

企业专用 AI 语音模型新秀：aiOla 推出 Jargonic，号称在企业术语识别方面优于竞品

aiOla 推出了一款名为 Jargonic 的新型自动语音识别模型,专为企业使用而设计。这个模型能够处理专业术语、背景噪音和各种口音,无需大量再训练或微调。Jargonic 采用独特的关键词识别系统,可以零样本适应企业特定词汇。在多项基准测试中,Jargonic 在准确性和专业术语识别方面都优于主要竞争对手。这款模型现已通过 API 向企业客户开放使用。

Observe 推出 VoiceAI 智能助手，通过拟人化语音实现客服中心自动化，避免打断对话

人工智能

语音识别

自动化创新

2025-03-28

Observe 推出 VoiceAI 智能助手，通过拟人化语音实现客服中心自动化，避免打断对话

Observe.AI 正式推出 VoiceAI 智能语音助手，旨在自动化处理呼叫中心的日常客户交互。该解决方案集成了多项 AI 技术，包括语音识别、文本转语音和专有 AI 模型，可无缝对接企业现有系统。通过提供拟人化的语音服务，既能提升客户体验，又能大幅降低运营成本，帮助企业打造智能化客服中心。

OpenAI 新推出的语音 AI 模型 gpt-4o-transcribe 让你几秒钟内为现有文本应用添加语音功能

人工智能

语音识别

模型优化

2025-03-21

OpenAI 新推出的语音 AI 模型 gpt-4o-transcribe 让你几秒钟内为现有文本应用添加语音功能

OpenAI 发布三款全新专有语音模型，包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型基于 GPT-4o 开发，提供更准确的转录和语音合成能力，支持 100 多种语言，可通过 API 集成到第三方应用中。新模型在英语转录准确率方面表现出色，错误率仅为 2.46%，并支持语音定制和情感表达。

人工智能

语音识别

用户交互创新

2025-03-19

Anthropic 据报道正在为 Claude 准备语音模式

据报道，人工智能初创公司 Anthropic 正在为其 AI 聊天机器人 Claude 开发语音功能。公司首席产品官表示，计划推出允许用户与 AI 模型对话的体验。Anthropic 已进行内部原型开发，并与包括亚马逊在内的多个合作伙伴讨论，以加速语音功能的推出。这将使 Claude 的交互方式更加自然，为用户提供新的使用模式。

人工智能

语音识别

模型优化

2025-02-28

ElevenLabs 推出自研语音转文本模型

ElevenLabs是一家刚刚完成1.8亿美元融资的人工智能初创公司，主要以其音频生成能力而闻名。该公司通过推出首个独立的语音转文本模型Scribe，迈出了另一个技术方向。该初创公司估值为33亿美元，已帮助许多其他公司提供语音转文本服务，利用其庞大的声音库。然而，该公司现在希望进入语音检测领域，与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型竞争。

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: