机器之心原创

作者:王艺、藤子

这家名为极限元的公司正在保护你的钱包、老人和孩子,它的语音人工智能技术能够识别诈骗电话,帮助公安机关抓捕犯人,过滤互联网上涉恐、涉黄、涉暴的视频。

2015 年 2 月,三名英国少女取道土耳其远赴叙利亚,成为「圣战新娘」。半年后,其中一位少女 Kadiza Sultana 在交战中丧生。

据反恐专家估计,当时已有约 50 名女子从英国赴叙利亚加入极端组织 ISIS。ISIS 在西方有大批拥趸,其通过 Facebook、Twitter、YouTube 和手机 App 等社交平台发布的煽动性极强的宣传、招募视频,对极端主义分子具有极大的吸引力。

互联网丰富了人们信息沟通的同时,也充斥着大量不良甚至危害性极强的信息,互联网的便利条件加速了这类有害信息的传播速度和传播范围。针对互联网上存在的涉恐、涉暴、涉黄等有害信息,各国政府在不断完善法律、制度等约束手段的同时,正在寻求技术上的解决方案。

极限元则是国内首家采用音视频双通道检测技术实现互联网涉恐、涉暴、涉黄等有害信息监测的供应商,使用人工智能技术针对不同数据类型进行有害信息特征提取,训练检测识别所需的声学、图像模型,对视频中的声音、标志物、标志性场景等要素进行语音与图像的双维度检测,极限元已为相关部门及需要自检的互联网信息发布平台网站提供了这项技术解决方案。

应用于安全领域的语音技术

与国外互联网上频繁出现的极端主义视频相比,中国社会的一大顽疾则是电话诈骗。

据统计,2011-2015 年,全国电信诈骗案数量从 10 万增长至 60 万,飙升 6 倍,每天至少有 14 万人在进行电话诈骗。在被成功诈骗的人群中,中老年人占比 41.32%,而这对正在步入老龄化的社会来说,极为不利。

于 2014 年正式运营的极限元由来自华为、搜狗、中科院等企业、科研机构的语音专家创立,安全领域的语音识别、语音关键词检索技术则是极限元商业化落地比较成熟的项目。

针对电话诈骗层出不穷的乱象,极限元推出了反电信电话诈骗系统,帮助电信运营商和地方公安部门有效检测、识别出诈骗电话及诈骗类型。目前,反电信电话诈骗系统已成功应用在全国十几个省、市、自治区。

作为三大移动运营商和地方公安部门的语音技术供应商,极限元综合应用了语音识别、语音关键词检索等技术,推出诈骗电话检测技术解决方案。

电信运营商会监测每天外呼频次异常的情况,统计外呼频次过高的主叫电话号码并抽样采集部分通话录音用于自动检测,诈骗电话监测系统会分析录音数据,并进行指定关键词检测,判断是否满足各种诈骗类型的匹配条件,对确认的诈骗录音会输出诈骗类型和告警提示,由相关部门做进一步处理。而目前,极限元的诈骗电话检测方案能识别包括邮包快递、社保卡、信用卡等 11 种诈骗类别。

另一个实际应用案例是公安技侦场景,针对技侦部门办案时需要处理的海量通话录音,极限元应用声纹识别技术能找出某个犯罪嫌疑人相关的所有通话,同样,极限元也能应用户的要求,通过语音识别技术找出包含某些敏感关键词的所有通话。

相比语音助手等其他语音交互相关应用,话务场景下的识别准确率更为关键。然而,在电话录音识别检测场景中,通话质量不佳会导致准确率下降。通常通话录音内容审核功能的实现方式普遍为,将通话语音转化为文字,再基于文本信息进行关键词检索,实现内容审核。极限元则结合应用场景,使用语音关键词检索技术,将通话录音识别结果输出音频检索网络,将指定的语音关键词转换成音素在检索网络中进行匹配,输出检索结果。

这种方式不仅绕开了生成文字所需的解码过程,提高检索效率,还能避免语音转文字可能带来的误差,提高识别准确率。例如将人名「张珊」转写成「张山」后就无法准确的检索正确的人名,而基于音素的检索是使用「zhang shan」进行匹配,很大概率上可以命中关键词。尽管由于语音关键词检索会造成同音字的误判,但产生的误差依然比语音转文字,再进行关键词匹配要小很多,而带来的准确率提高和效率提升的优势却很明显。对于海量录音数据内容审核的应用场景,也更为实用。

极限元联合创始人马骥表示,语音关键词检测技术应用场景还有很大的拓展空间,只要能产生大量音频数据的行业都可以使用音频审核技术,比如对呼叫中心客服人员的录音质检、档案馆录音数据的信息检索等。

在互联网有害信息音视频双通道检测方面,除了暴恐类有害音视频检测,极限元的技术还能应用至直播平台及网站、社区鉴黄工作,向其提供基于云端的 SaaS 平台接口,省去网站人力检测所需的高昂成本。

语音与图像的跨界融合

据马骥介绍,或许是语音安全领域属于太细分的市场,因而,在目前主流的语音技术供应商中,涉足泛安全领域的并不多。

通过与客户的不断合作,极限元积累了自己独有的优势——响应及时,能够满足用户的定制化需求。然而,在与客户的一次次接触中,极限元意识到,客户的需求往往涉及文字、语音、图像、视频中多个数据类型,客户希望采用同一家公司的方案同时解决自身的所有需求。

但是人工智能行业刚起步,市场上并没有能够同时提供智能语音和计算机视觉解决方案的技术供应商。语音识别公司几乎没有涉及图像识别,而如果图像识别公司,要跨越到语音行业,也面临着挑战,首先是语音识别相关的人才极度匮乏,其次是技术难度会相对较高。

正是看到了客户的需求以及这个市场空缺,极限元希望从语音识别跨界到图像识别,目前,极限元的图像识别技术已在泛娱乐领域有所应用,比如在直播过程中,识别主播的手势并佐以特效,实时检测视频中的二维码广告并判断进行屏蔽还是推荐导流。上文提到的互联网有害信息的音视频双通道检测方案,也是语音和图像技术的综合应用成功案例。

技术升级:实时识别是语音检测的未来

目前,极限元与客户的合作,是先录音后检测,对呼叫中心来说,不能及时响应客户诉求或实施危机干预,对公安机关而言,这对抓捕不法分子等后续环节造成了时间上的滞后。因此,极限元希望将技术改良为实时通话检测。但在实操环境下,检测处理时间有限,传输音频带宽消耗大,而且语音安全行业数据并发量很高,这都是实时处理必须面临的阻碍。

极限元的解决办法是绕过带宽瓶颈,直接将其实时方案部署到客户的主机上。然而,这又会带来另外一个问题,客户的录音采集服务器普遍只能支持音频的转码解码的需求,极限元若想将其机器学习解决方案集成至客户方,则需要客户的设备拥有加载几百 G 的机器学习模型的能力,客户以及客户的设备供应商都需要做出改变。

而在技术的实现层面,实时检测也与当前的存量录音检测有着本质上的区别。实时检测考验极限元的「当前识别+记忆修正」的语义理解能力,即如何动态合理地优化缓存空间。在实时对话中,很有可能前 5 秒的对话表达一个意思,结合后 5 秒之后,表达意思就完全不同。这需要机器在理解一句话时,具备综合考虑,甚至是理解两三句话之前某句话的能力。

另一方面,由于有着巨大的数据量,通过存量录音检测的方式,不需要对场景进行精细分析,只需匹配关键音素即可。实时检测则不同,实时发生的对话意味着极少的已知信息,因此在监测过程中需要对场景进行分析,理解上下文。这需要极限元放弃音素识别法,在通用的语音转文字匹配关键词并进行语义理解层面继续打磨。而且对于存量录音检测,极限元能够对音频进行降噪和格式处理,而在实时检测中,这些功能的实现也提出了更高的技术要求。

马骥介绍,目前,极限元正在攻克以上难关,同时,马骥认为,攻克难关还不够,做音频技术的解决方案,一定要结合用户现场数据。他说,「在实验室攻关成功,并不意味着到用户现场就一定好用,我们还需要结合用户数据进行优化。」而这正是他们的努力方向。

此外,除了安全领域中一些智能语音技术的成功应用,极限元还是国内为数不多几家可以提供语音合成定制化服务的公司,从录音人选型、录音采集、语料标注、模型训练,到合成引擎优化、跨平台移植开发等语音合成个性化音库定制开发全流程,为用户提供个性化的发音人音库定制开发服务,相关技术已成功应用于搜狗、360 的多款智能软、硬件产品中。成熟的语音合成定制化解决方案为极限元带来了稳定的销售收入。

目前,极限元有相当一部分营收来自人工智能综合定制化技术服务,用户来自政府职能部门、传统企事业单位以及互联网科技企业,涉及教育、交通、安全等多个领域,马骥预测未来的业务增长点会集中在泛娱乐行业。