当前位置: 制片百科 > 制片相关 > 理论

人工智能的配音是怎么做到的

2022-01-21 15:30:54

  人工智能的配音是怎么做到的,随着科技的进步,人工智能普遍生活在我们身边,实现科技进入生活,那么人工智能的配音是怎么做到的?小编给大家科普下语音AI技术中的语音合成。

语音技术涉及的面比较广,包括语音信号处理,语音唤醒,语音识别,语音合成等。语音信号处理处理的问题包括降噪、回声消除、声源定位等。典型的场景比如,听歌的时候,播放器里让声音听起来更舒服的一些技术。再比如,亚马逊推出的Echo音箱,需要解决远场交互的问题(比如在3-5米外去唤醒音箱,并与音箱进行交互)。再比如,车载上的语音交互,提供的主驾、副驾模式,就是典型的声源定位和波束成形应用。在主驾模式下,副驾在闲聊,是不太会影响主驾的语音交互的。信号处理使用到的技术术语包括DSP,DOA,beamforming, Echo Cancellation等,感兴趣的读者可以顺藤摸瓜,找一些资料读读。语音唤醒主要解决的问题类似聊天的时候,「叫」某人一声,引起他的注意力,开始听你说话,也就是开始语音识别过程。典型的如手机上的语音助手,比如苹果的「hey siri」,谷歌的「ok google」,国内华为的「小艺小艺」,小米的「小爱同学」等。唤醒要达到唤醒率高,误唤醒率低的几个目标。就和人聊天的场景一样,唤醒率高意味着你一叫他,他就理你,转过头来和你对话。唤醒率低的话,你就会要么觉得对方「耳背」,老需要叫他好几次才能听见,要么觉得他故意不理你,装作没听见。而误唤醒就是说,你没有唤醒他,结果他转过来和你说:「你刚才是不是叫我了」,你就会觉得他莫名其妙,神经过敏。如何在高唤醒率的情况下,又保持低误唤醒率,是语音唤醒的难点。另一个难点在于,如何在不同环境下保持高唤醒率,比如开车的时候,开着车窗是否能唤醒自如。在有风噪、胎噪等不同噪声的情况下,保持较好的唤醒率。在高速路上高速行驶的时候,在后座有人闲聊的时候,在车里开着语音导航或者播着音乐的情况下,是否能提供较好的唤醒率。

 

接下来进入正题,聊聊语音合成,语音合成英文名为Speech Synthesis。一般使用TTS更多一些,也就是Text To Speech, 文语转换,也就是文本到语音的转换。一般TTS分为三部分,前端分析,声学模型,声码器。最近两三年,TTS方面有很大的技术突破,自从谷歌推出WaveNet论文后,整个行业就开始一路高歌猛进。TTS相当于是人类的「嘴巴」,让人类的想法,从文字变成声音。一个最简单的普通话语音合成系统可以这样做:汉语大概1400个左右的带音调的音节,如果你想做一个自己声音的合成系统,你把每个音节都录音一下,存储一份音节和音频的对应关系。要合成时,将输入文本切分为一个个字,每个字找对应的发音音节(这里存在多音字的发音分类问题,我们先假设先找该字的高频发音),然后使用音节去查找对应的音频。每个字都找到后,将各个音频拼接在一起,基本上就是最简单的语音合成系统了,当然,为了让拼接的方法读得更好,有很多工作要做:

1,更好地解决多音字的问题。可以引入分词和词条发音等去改进,也可以引入各种更加复杂的模型。

2,更好地解决变调的问题。比如上面的「不错」里的「不」字,不单独成词的时候,读成第四声,「不错」的时候则变调为第二声。类似的变调还有「一」的变调,叠词变调等。

3,使用更大的音频数据库,尤其是录制不同上下文语境下的语音。上面使用最简单的单音节,其实是假设发音是上下文无关的。但是变调等语言现象的存在,使得这个假设不成立。对英文而言,爆破、连读等语言现象的存在,使得发音的预测会更为复杂。有了更大的数据库,最直接的改进思路就是,使用更大的拼接粒度(上面使用的是单字的最小粒度),比如词汇级别就明显可以改进效果。

4,使用更复杂的方法来解决拼接存在的问题。比如使用HMM等方法来预测声学参数,然后结合预测出的参数,来指导拼接单元的选择,让合成的音频更有节奏感,更加平滑自然一些。

  这里小编推荐的是制片帮AI配音设备,网址:https://yueyin.zhipianbang.com/ AI配音是内容与媒体首选的配音服务商,平台可实现24小时在线。独有AI只能配音技术,更智能、更专业,完美贴近真人配音。有海量音色库,近千种音色,覆盖多种场景,支持单人,多人配音。随心选,让你的配音不单调。10多种功能,任性用。支持多音字、停顿、整数、小数、数字等特色发音。AI模仿真人情感,支持各种情绪。还有智能违禁检测,为您提供行业内最新广告法,各平台敏感词等。

当然,为了让拼接的方法读得更好,有很多工作要做:

1,更好地解决多音字的问题。可以引入分词和词条发音等去改进,也可以引入各种更加复杂的模型。

2,更好地解决变调的问题。比如上面的「不错」里的「不」字,不单独成词的时候,读成第四声,「不错」的时候则变调为第二声。类似的变调还有「一」的变调,叠词变调等。

3,使用更大的音频数据库,尤其是录制不同上下文语境下的语音。上面使用最简单的单音节,其实是假设发音是上下文无关的。但是变调等语言现象的存在,使得这个假设不成立。对英文而言,爆破、连读等语言现象的存在,使得发音的预测会更为复杂。有了更大的数据库,最直接的改进思路就是,使用更大的拼接粒度(上面使用的是单字的最小粒度),比如词汇级别就明显可以改进效果。

4,使用更复杂的方法来解决拼接存在的问题。比如使用HMM等方法来预测声学参数,然后结合预测出的参数,来指导拼接单元的选择,让合成的音频更有节奏感,更加平滑自然一些。

  以上就是人工智能的配音是怎么做到的的一些内容,希望对你有所帮助。想了解更多的配音类知识,制片帮资讯有很多有关配音的知识,在这个信息爆炸时代,你一定能找到并学会你感兴趣的知识。如果你想配上一个好的配音,更专业的配音,就可以让专业的人去做专业的事情。制片帮https://yueyin.zhipianbang.com/有专业的AI配音设备,配音成品的速度也是比较快的,可以在线上就完成专业的配音要求。

拍片计算器
推荐视频
我要
拍片
拍片
报价
免费
策划
客服 400-888-0960
APP
下载

制片帮APP下载

扫码下载
免费配音
公众号
公众号
拍片热线
400-888-0960
微信
客服微信号
投诉
建议
维权与监督
客服:400-888-0960
微信
客服微信