详解人声效果的精细处理-制片帮

　　大多数人使用反复的试探性调节来处理人声效果，以找到最佳的音感效果。这种调音方法的缺点非常明显：

　　(1)需要多次猜测才能找到理想的调音效果，所以需要很长时间。

　　(2)更好的调音效果往往是偶然遇到的，对调音规律的总结没有帮助，以后也不容易再现。

　　(3)不同设备的固定参数和可调参数不同，因此使用某一设备的经验通常不能用于另一个设备。

　　目前，改变音源音色的技术手段并不多，其中频率平衡、延迟反馈、限幅失真等三种基本方法更为常用。然而，这些效果处理设备的不同参数组合产生的音色却大不相同。

　　效果处理器可以设置多个参数，特别是延迟反馈，理论上可以设置多达几十个模拟混响效果参数。当然，大多数人很难理解这些高度专业的参数，也不知道如何理解它们。因此，大多数效果处理设备只设置一两个可调参数，其可调范围相对狭窄。这种简单的调整效果处理设备允许人们尝试在上面进行调整，而不会出现太多的问题。但对于效果处理需要更精细的调音场合，如在多轨配音系统中，必须使用更专业的效果处理设备来进行更精细的效果处理。平衡频率

　　显然，频率平衡分段越多，效果处理的精细度就越高。除图表平衡外，一般调音平衡单元通常只有三到四个频段，显然不能满足准确处理声源的要求。为了灵活地平衡声音，我们建议使用增益、频点和宽度可调的频率平衡。

　　大多数频率平衡的可调参数只有一个增益，但这并不意味着其他两个参数不存在，这两个参数是不可调的固定参数。当然，将这两个参数设置为可调并不难，但它们会增加设备的成本，使其调整复杂化。因此，只有在高端设备上才能看到增益、频点和宽度可调的参数平衡电路。

　　事实上，增益、频点和宽度是可调频率平衡的，几乎不可能通过猜测和尝试来找到理想的音色。在这里，我们必须研究音频信号的物理特性、技术参数以及它在人耳听觉方面的相应关系。

　　人声源的频谱分布相对特殊。就其发音方式而言，它有三个部分：一是声带振动产生的音乐。这部分发音最灵活，不同音高和发音方式产生的频谱变化很大；第二，鼻腔形状相对稳定，共振产生的谐音频谱分布变化不大；第三，牙齿间口腔气流的摩擦声与声带振动产生的音乐声基本无关。

　　频率均衡可以大致的将这三部分频谱分离出来。用语调节鼻音的频率段在Hz，以下平衡的中点频率一般为80~Hz，平衡带宽为4倍频程。例如，Hz平衡曲线应从点设定为频率平衡的中点~Hz平衡增益的调整范围可以是 10Db~-6dB。这里要提醒大家，这个调整的监听扬声器不要用低频发音弱的小盒子，以免鼻音无意中过度加重。

　　人声音调的变化，人声乐的频谱也发生了很大的变化，所以调整音乐的平衡曲线应该非常温和，平衡的中点频率可以是1万~Hz，平衡带宽为六倍频率范围。这个频段控制了歌唱和发音的亮度，向上调整可以温和地提高声音的亮度。然而，如果需要降低声音的亮度，情况就会更加复杂。大多数声音太亮的声音是Hz附近的频谱很强。在这里，我们可以使用1/2倍的平衡带宽，平衡增益为-4dB平衡处理约Hz在附近找一个好的频点。

　　人声齿的频谱分布在4kHz以上。由于该频段还包含部分音乐频谱，建议调整齿音频段为6~16KHz，平衡带宽为3倍，平衡中点频率一般为10~12KHz，平衡增益最大可调至 10Db；如果需要降低人声和牙齿的响度，平衡带宽应为1/2倍，平衡中点频率应为Hz平衡处理，平衡增益最低可降至-10Db。

　　从以上分析可以看出，当人声的频率平衡处理时，为了突出一定的音感而进行的频段改进，应尽量使用曲线平缓的宽频带进行平衡。这是为了使人声、鼻音、音乐和齿音的频谱分布均匀连贯，使其发音自然流畅。理论上，声音在发出任何声音时都应保持恒定。

　　为了在不破坏生活自然感的基础上处理其特定效果，可以采用1/5倍频率的平衡处理。具体情况如下：

　　(1)音感狭窄，厚度不足，可达Hz使用1/5倍频程ゼ醮恚ゼ酰淖畲悼念梢栽3dB。

　　(2)卷舌齿音尖啸，"嘘"声音缺乏清晰感，可在Hz衰减的最大值为-6Db。

　　对于音源的平衡处理，最好使用能显示平衡曲线的平衡器。数字调音平台平衡器上的平衡增益调节按钮使用"G"用来均衡频率调节按钮"F"用来识别均衡带宽调节按钮"F"或"Q"来识。延迟反馈

　　延迟反馈是效果处理中应用最广泛但最复杂的方法。其中，混响、合唱、镶边、回声等效果的基本处理方法是延迟反馈。

　　1、混响

　　混响效果主要用于增加音源的融合感。自然声源的延迟声阵列非常密集和复杂，因此模拟混响效果的程序也复杂多变。常见参数如下：

　　混响时间：数字混响器有一套复杂的程序，可以逼真地模拟自然混响。虽然有许多技术参数可调，但这些技术参数的调整不会比原来的效果更自然，特别是混响时间。

　　高频滚降：该参数用于模拟自然混响中空气对高频的吸收效应，产生更自然的混响效果。高频混降的可调范围一般为0.1~1.0.当该值较高时，混响效果也更接近自然混响；当该值较低时，混响效果更清晰。

　　扩散度：该参数可调节混响声阵密度的增长率，其可调范围为0~10.当其值较高时，混响效果丰富而温暖；当其值较低时，混响效果空旷而稀疏。

　　预延时：自然混响声阵的建立将延迟一段时间，预延时设置为模拟次效应。

　　声阵密度：该参数可调节声阵密度。当其值较高时，混响效果较温暖，但声染色明显；当其值较低时，混响效果较深，切割声染色较弱。

　　频率调制：这是一项技术性的参数，因为电子混响的声阵密度比自然混响稀疏，为了使混响的声音比较平滑、连贯，需要对混响声阵列的延时时间进行调制。此项技术可以有效的消除延时声阵列的段裂声，可以增加混响声的柔和感。

　　调节深度：指上述调频电路的调节深度。

　　混响类型:不同房间的自然混响阵列差异很大，一两个参数都无法表现出种差异。在数字混响器中，不同的自然混响器需要不同的程序。一般有小厅（S-Hall）、大厅（L-Hall）、房间（Room）、随机（Random）、反混响（Reverse）、钢板（Plate）、弹簧（Sprirg）等等。小厅、大厅房间的混响是自然的混响效果；钢板、弹簧混响可模拟早期机械混响的处理效果。

　　房间尺寸:这是为了配合自然混响而设置的，很容易理解。

　　房间活动：活动是房间的混响强度。它与房间墙壁的吸声特性有关。该参数用于调节此特性。

　　早期反射声与混响之间的平衡：混响的早期反射声与其处理效果特性密切相关，而混响声阵的声感变化不大。因此，数字混响器的生成是分开的。本参数用于调整早期反射声与混响声阵之间的响度平衡。

　　早期反射声和混响声的延迟时间：即早期反射声和混响声阵之间的延迟时间控制。此时间长，混响效果前段清晰；此时间短，早期反射声和混响声重叠，混响效果前段浑浊。

　　除上述可调参数外，还有一些其他辅助参数，如低通滤波器、高通滤波器、直接/混响声的响度平衡控制等。

　　2、延时

　　延迟是将音源延迟一段时间后再播放的效果处理。合唱、镶边、回音等效果可以根据延迟时间分别产生。

　　延迟时间为3~35ms人耳之间感觉不到滞后音的存在，与原音源叠加后，会因相位干扰而产生"梳状滤波"这就是镶边效果。如果延迟时间为50ms在上述情况下，其延迟声清晰可辨，此时的处理效果为回声。回声处理通常用于产生简单的混响效果。

　　延迟、合唱、镶边、回音等效果的可调参数相似，具体如下：

　　*延时时间（Dly），即调整主延迟电路的延迟时间。

　　*反馈增益（FBGain），即延迟反馈的增益控制。

　　*反馈高频比（HiRatio），即反馈电路上的高频衰减控制。

　　*调制频率（Freq），指主延迟的调频周期。

　　*调制深度（Depth），指上述调频电路的调制深度。

　　*高频增益（HF），指高频均衡控制。

　　*预延时（IniDly），指主延迟电路预延时间的调整。

　　*均衡频率（EQF），音色调节采用这里的平衡频率，这是平衡中点频率的选择。

　　由于延迟效果复杂多变，如果不是效果处理专家，建议使用设备提供的预置参数，因为这些预置参数的处理效果一般较好。声音激励

　　对于音源信号的浅限幅处理，会产生类似的声音"饱和"音感效果使其发音在不提高实际响度的基础上增加响度。

　　一些数字效应器也配备了非线性饱和效应，它处理信号振幅，模拟三极管上大电池信号饱和引起的非线性，从而产生"发硬"的音感效果。

　　由于限幅失真主要是由额外的高谐波成分引起的，所以新设计的激励器，为了使其处理效果更柔和，都是通用的过在音源中家置高次载波成分来模拟限幅失真，营造不那么"嘶哑"的声激励效果。

　　另外，通过一个用于加强高次谐波的高通滤波器对原信号进行处理，然后再叠加在经延时的原信号上，可以营造出音头清澈的声效果。显然、这种处理方式可以产生出不那么嘈杂的激励处理。

　　激励处理类似于音响设备的过载失真，因而对音源的过量激励，会产生令人不悦的嘈杂感。由于早期音响设备的保真度都不高，人们已经习惯了那种稍显嘈杂的音响，而对于音感清洁的高保真度音响，反而不太习惯，感觉其发音过分柔弱。在人声音源当中，除了一少部分经过专门训练的人之外，大部分的发言都缺乏劲度，因而这里的激励处理是十分必要的。

　　对人声的激励处理有下面几种情形：

　　(1)对人声乐音的激励处理，其频谱分布以Hz为中点。此种激励的效果比较自然舒适、对增加音源突出感的作用也比较明显。

　　(2)对人声鼻音的激励处理，其频谱分布以Hz为中点。此种激励可以有效地增大人声的劲度感。

　　(3)对人声Hz附近进行激励，可以增加音源的喧嚣感，当然此处理方式的使用应十分谨慎，最好是只用于摇滚乐的演唱。

　　(4)对人声Hz范围内的频谱，不宜使用激励处理，因为它容易使音源产生令人不悦的嘈杂声响。

　　(5)对人声的齿音一般应避免使用激励处理，因为此频段的失真很容易被人察觉。当然如果是使用激励效果比较柔和的数质郊だ鳎部梢远猿菀糇銮嵛⒌募だ恚杂糜诩又爻菀舻那逦龈小Ｆ浯淼钠灯子υ?Hz以上。

　　歌唱发音的激励处理通常要保守一些。在实际的调音当中，激励处理的音感效果有可能随长时间的听音而逐渐弱化，所以在调节激励效果时，时间不要超过10分钟。

　　对人声音源的激励处理，最好是使用数码效果处理器。它通常有以下几项调整参量：

　　1.输入增益(Gmn)，用于调节输入电平，注意此处切勿使设备产生过载。

　　2.调谐频率(Tuning)，根据需要处理的频段，选择一个合适的频率。

　　3.驱动电平(Drive)，用于调整激励的深度。驱动电平较大时，效果比较嘈杂；驱动电平较小时，效果则比较温和。

　　4.混合比率(Mix)，即原信号与效果信号的响度比。效果处理的整体规划

　　对人声音源的精细处理，需要使用1台全数字式调音台，至少3台数字式效果器和一台数字式激励器，其连接方式如附图所示。

　　首先在调音台上，使用通道均衡控制单元对人声进行音色调整，以使其音感得以改善，这里给出几个常用的例子。

　　(1)8OOHz附近的频段可使人产生某种厌烦感，因而是可在此频段予以最大为15dB的衰减，频带宽度为1／5倍频程，用于改善人声发音的总印象；

　　(2)68O0Hz附近的频段可使人声产生尖啸、刺耳的感觉，可在此频段予以最大为10dB的衰减，频带宽度为l／5倍频程，用以减弱齿音的尖啸感；

　　(3)对于发音过亮、有炸耳棍子的感觉者，可在Hz处予以最大为8dB的衰减，频带宽度为1／3倍频程；

　　(4)对于鼻音过重者，可在Hz以下频段适当衰减，衰减带宽为3倍频程；

　　(5)齿音的超高频段由于受人耳灵敏度的影响，需对12KHz处提升6dB(频带宽度为2倍频程)，其响度才能与人声的乐音平衡。

　　以上均衡处理较适用于现场扩音，如果是多轨配音或节目转发，则应将增益的调节量减半。

　　均衡调好之后，再调节激励器。先将激励器的驱动电平和混频电平调至最大状态，频率调谐放在Hz，此时如果其发音已显嘈杂，或音色过硬，可将驱动电平调低，应注意这种调整有变化的是音源的硬度。如果驱动电平调在较高的位置，而只将混频电平调低，则高硬度声响的音响保持不变，但它会被未经激励处理的原声略微掩盖。此一现象在激励深度很强时比较明显，其中前一种发音给人的听感就是原声，后一种则可产生出两层声音，它具有增加人声层次感的效果。

　　一般1台激励器只能处理一个频段，并且很多单一功能激励器的连接都要求不能并联，只能串联。如需对音源的多个频段加激励，这里建议在附图所示的设备连接当中，混响器应选用含有激励处理的多重效果器(如YAMAHASPX)，此时就可以用激励器处理Hz、Hz和Hz频段，用混响器上的激励功能处理Hz频段。

　　再次提醒大家的是，激励处理的调整时间不能太长，以免人耳疲劳后，无法准确辨认激励的程度是否合适。

　　最后就是调整混响效果。这里的混响效果包含两个方面，一个是基础润饰，另一个是强染色。

　　混响处理的基础润饰，主要是为了增加音源的融和性，但又不能让人听出有房间残响。此处的混响处理的强染色效果，主要是用于为音源生成余音缭绕渲染性，其处理方式有以下3种情形：

　　(1)生成空间感。使用厅堂或房间混响效果。模拟余音明显的自然混响效果，是混响处理简单而又有效的方式，对此效果通道上Hz附近的频段稍作提升，可以产生穿透感良好的高亮度声响。当然，也有一个缺点，即处理的效果比较浑浊，有时带有一种"闷罐"声响。

　　(2)生成回音。长延时时间的延时反馈处理，可以模拟山谷回音效果；处理的延时时间一般都与演唱歌曲的节奏合拍。为使其效果更具有遥远感，可对其Hz以下和Hz以上的频段适量衰减。模拟山谷回音效果，很多数码效果处理器上都有现成的程序可供使用。

　　(3)生成融和的声背景。余音缭绕的混响效果对人声音源的美化作用非常有效，几乎所有的人声演唱都要使用混响。在不导致其发音变浑，或引起"闷罐"声的前提下，我们认为混响效果越强越好，但实际常常是混响效果还很弱时，其发音已经变浑，并引起明显的"闷罐"声。

　　为了在不导致其发音变浑，或引起"闷罐"声的前提下，生成融和的声背景。下面推荐如下效果处理方式，即延时一混响串联处理方式。此种处理的延时时间一般为ms，反馈增益40％-60％，混响使用大厅混响效果，混响时间为2-8s。串联处理后的混响效果要求平滑、连贯。如果处理后的声响音头毕露，则可作如下调整，一是缩短延时时间，二是增加混响的响度，三是增大混响的时间。

　　混响处理的强染色效果，一般都应在基础润饰的前提下进行，这样强染色处理就可以弱一些。

　　首先，我们要弄清楚一个问题，你做的是音乐还是歌？我的意思并不是说歌就不是音乐，我的意思是你要把歌和纯音乐分开，在歌里，人声是绝对的主导。所以，正确的处理歌里的人声在整个歌里占有了非常重要的地位。现在，我们从准备工作入手，首先你得有一个像样一点的话筒，千万别相信别人说的一两百元的话筒就能录出专业的人声。那些卡拉ok话筒尤为明显，由于过分地夸大中频段、而且往往为了不出杂音把高频削掉了，这样的话筒当然录不出清晰的人声，好多朋友在单独用卡拉ok话筒配音的时候觉得人声还可以，但是做完整个音乐混缩的时候才发现人声含混不清，不管怎么弄都不好听，就是这个原因。同样的道理，有些人刚开始用akg这样的话筒的时候觉得很不习惯，认为噪音奇大，声音发尖，其实对于人声来讲，我认为清晰亮丽的高音频段非常重要，比如有一些流行歌曲本身混响较大，混缩时就非得再把高频提升一点，要不然混响不够，要不然含混不清，这就待后面再讲了。我的建议是配音时用耳机听回送，基本上听不到环境噪音和电流声就可以了，当然专业一点的话筒阻抗比较大，没有话放听起来可能吃力一点，所以最好弄个话放或者弄个大功率耳机。好了，提归正转。现在开始配音！现在做第一步工作，降噪

　　有人说了，降噪我会啊，选取一段噪音波形为样本，然后再整体降噪呗，慢着，这个地方就容易出问题，首先你要听一下噪音属于哪一类？在人声里占到多大的比重。看这个噪音采样（图一），这是一段人声静音时的环境噪音在COOLEDIT里的噪音采样。（有关具体步骤请参阅胡戈和张俊在www.gigastudio.net上的有关文章，在此不详述）这段频谱的噪音量实际上已经非常小，而且主要是非常高频的电流声，这样的噪音是可以通过上述方法解决的，但是如果噪音的量比较大，而且参杂了许多中高频的环境噪音的话，我建议你不要用这个方法，因为这样会吃掉你的声音，还会让人声产生吭吭巴巴的现象。所以我建议这个方法要慎用，而且采样的时候尽量采最小最平直的一部分噪音。如果降噪完毕在人声中间还有噪音啊、喘气声啊，我建议你直接把那一部分静音，这样尽管人声里还有一点噪音，但是被人声掩盖，人声间歇时又是静音，整个人声就会听起来比较干净。说一千道一万最好是配音的时候就把好关，尽可能的减少噪音录入。第二步，音量

　　音量也是人声是否清晰很重要的一个原因（废话）。

　　录制完成一轨波形后，先看看波形的纵向大小，一般振幅在2-2.5左右声音比较好。然后在混缩的时候用这样的办法判断你的人声音量是否合适：

　　把监听音箱的音量关到最小，然后稍微开一点，这个时候因该只能听到人声比较清楚，其他的声音都若隐若现，然后再开大一点，这时候可以听到吉他、贝司泛音、嚓的声音比较清楚，然后把音量开到一般状态下，这时候鼓和贝斯清楚的铺开了。然后把音量整个放到最大，听一听什么东西录爆了。实际上这是人的耳朵的听觉特性决定的，先是接近人声的中频，然后是中高频，然后是低频。

　　做音乐和听音乐的人不同之处在于，做音乐的人往往要试着听清楚每个细节、每种声音，但听音乐的人往往只注意他想听到的，所以在一首歌里，人声是一定要让别人听清楚的。试想你自己路过一家音像店，无意识的听到了一首歌，你注意的是什么？——是歌手唱歌的声音。我认为合适的音量和混响是构成声音清晰与否或者靠前靠后的重要组成。第三步，压限

　　完成了上面的一些工作以后，下面开始最重要的两步工作：压限和混响。

　　首先讲压限在人声处理中的合理使用，如果你还不懂什么叫压限，那么请你去看看胡戈的文章《动态大法》，简而言之，压限就是一个音量调节钮，在你声音太大的时候给你关小一点，在你声音太小的时候给你提升一点，是你的音量始终保持在一个比较平均的线上。我常用的是wave3.0插件包里的rcl,但是通过试验我发现wave3.0的多段压限器c4更适合处理人声。

　　这是c4里预设的一个vocal的压限值，大致你可以看出：纵向是音量值，在正负6db这个范围内（紫红色范围内）是正常范围，超过这个范围就进行处理。然后你可以看出横向分出了4个区域，这才是c4的精髓所在----分段压缩，事实上，有了c4以后，我已经很少对人声在做什么均衡处理了，静态的均衡总是在这里合适在那里又不合适，调来调去非常麻烦，而c4的均衡和压限一样是动态的，而且是紧密联结在一起的，下面我着重讲一下这种动态的均衡和压限结合的好处。

　　先这样讲吧，假设你的作品里有四个乐器，贝斯、吉他、鼓、铺底弦乐再加你的声音，从频段来讲，贝斯和底鼓在低频段，高把位的吉他和高音区的弦乐在高频段，然后及他的中音区、贝斯的泛音、弦乐的中音区、你的人声都在中音区，这只是我们的划分，事实上每种乐器混在一起的时候并没有这样明显地划分，往往在各个频段划分的地方重合了一大队声音，这样的结果是各个乐器听起来都不明显，全部参杂在一起，一会儿听不到贝斯了，一会儿人声又蒙了。c4的作用就在于将效果分致于各个频段，通过动态的压限和均衡将各个频段的声音清晰化，比如说贝斯，通过处理，就老老实实的占据了低频，超过低频的声音就被压掉了，这样该是哪个频段的声音就在哪个频段，大家相安无事，谁的声音都清晰可辨了。所以我一般在最后混缩前要用c4处理（应该是梳理）一遍。通过这样大概的解释，不知道你有没有一点认识，如果不太懂，没关系，反正我们这次只讲人声的处理，看下面这个：

　　这也是c4的一个预设值叫popvocal，你注意看看和上面那个标准的人声处理有何不同？（像我刚才讲到的，POP的人声因为常常加很多的混响，所以为了清晰一般要将高频提升一点点，因为在声音里高音的指向性最强，低音最差。）看那个紫色的区域！在3K的时候开始提升一直到16K，这就是一般人声音的主干部分（也是最清晰最好听的部分）如果你录的人声是男低音或女高音，你可以手动把4k那个地方的灰色小卡子调整一下，然后相应的调节均衡的量，一般来说没有固定的预设值，在我录《生于七十年代》cd的时候，由于歌的风格和配器的不同，我调整的值也不同，《习惯》这样重一点的东西，我把紫色部分整个拉下来了一点，高音区也不上调，和整个音乐配起来，人声就融入其中了，而《凸凹》则相反，基本上就用了上面这个值处理，试想想如果整个音乐偏向中低频，你的人声尖利地在高频是怎样的感觉（除了刻意的音乐试验），所以有人说总感觉人声和音乐融不到一起，出了合适的混响度之外，这也是重要的原因。从mastering的角度来说，合理平均的将声音分配到各个频段，整个音乐才会显得饱满，你的工作就是将该去哪里的声音分配到哪里，别叫他乱跑而已。怎么样，找出你的人声文件，自己听听你的声音然后调整着看哪一段频率是最动人的，对了，我建议你在CAKEWLK或SAM里作为效果插件使用，不要对音频进行破坏性处理，否则做坏了后悔不说也不太方便。

　　实际上，压限还要和混响一起来使用，左右权衡才能试出来最好的声音，下面就来看看我的混响处理方法。