如何解决语音识别中的口音问题?

如题所述

相信许多人都使用过语音识别产品,Siri、微信语音、度秘和手机自带的语音助手,这些产品正越来越深入我们的生活。除了不能识别我们的语气,有时不知道是不是我们讲的普通话不标准,对于很简单的话,这些语音助手经常答非所问。

最近,我所服务的单位正在试用一套语音识别系统,阿里巴巴旗下的,识别率只有80%左右。和工程师沟通过后,得出最可能的原因有2个:1、使用频次太少,导致系统无法积累足够的数据,没有办法有效自主学习;2、口音问题,试用者的普通话夹带了大量的地方特色口音,让系统难以识别。

目前许多语音识别软件或者系统都是基于标准的发音来识别的,内嵌的可能是有限的几种语言或者方言,对于原来没有的语种,还得通过海量的数据去训练软件才能提高识别率。人们说话千差万别,口音各不相同,而且各个地方都有自己的方言,这对于语音识别来说是巨大的严峻的考验。如果对于年轻人而言尽量使用普通话就好,可是真正需要使用语音识别的人群年龄较大,他们多讲方言,口音也独有特色,也没有精力去重新学习一门语言了。

抛开云计算能力,语音识别的痛点或许还有两个:1、如果想要构建支持不同口音的语音识别系统,需要对各种语种语音进行大量的采集,这需要海量的设备采集海量的数据,再进行无限次的分析,即使是全球性科技巨头都不大可能做到这种程度;2、语音识别系统的分析能力,这可能要寄望于人工智能和深度学习了。

目前国内的科大讯飞、百度、腾讯、阿里巴巴,以及国外的谷歌、Facebook、亚马逊等等科技巨头都在研究、推广语音识别系统,随着大数据、人工智能和深度学习的发展,或许我们未来都会拥有一个电影钢铁侠里的贾维斯!如果我们想拥有可以情感交流的语音助手,而不是只能听清我们讲的字,更能听懂我们的语气和情感,这将又是另一个层次的问题了!

温馨提示:答案为网友推荐,仅供参考
第1个回答  2019-06-20

最近,有很多小伙伴问有没有好用的录音转文字工具,今天就给大家分享一款非常好用的神器,当然了,这款工具不只是具备“录音转文字”功能,还有一大堆其它功能可以使用。

当会议,或者课堂上想要进行录音并且整理录音为文字的时候,应用市场里面的这个“录音转文字助手”就能够帮助完成需要的转换。

找到这个工具,并且将这个工具按在手机后,在它的界面的左侧按下录音识别。就可以开始录音,并且快速的将录制到的声音转换成文字了。 

相似回答