短视频行业的兴起,不少创作者涌入了这一赛道,并且衍生出了许多与短视频息息相关的行业,就比如AI语音。其实我们在各大视频平台所听到的视频配音,不少来自AI,并且播放数据还非常漂亮,那不少网友可能会产生这样的疑问,AI语音是否能成为未来的主流?
所谓AI语音,其实就是机器人朗读,在早期的AI配音方面,机器人读出来的声音,每一个字我们都能听懂,但连起来读就显得有些刻板,听时间长了会让人头疼。当然了,早期的AI配音或许只是一个“附带”功能,登不上台面。然而,AI技术有高低之分,尤其是近几年的AI配音,完全可以达到“以假乱真”的现象,比如冬奥会期间数字人冬冬的配音,如果不看虚拟人,完全听不出这是AI语音。
AI语音为什么能发展到能“以假乱真”的地步呢?
之所以现在的AI配音能发展到真人的水平,其实就需要有真人的参与。首先要挑选声音素材配音工作者,不仅普通话要标准,而且不同场景下配音员的音色、感情色彩也要不同。就比如说城市宣传方面,音色就得偏向于浑厚一点,如果作为400客服,声音就得亲切。
而在声音采集方面,不仅要对配音员的拼音字母进行采集,还要对前舌音、后舌音、拼音组合、音色等进行全方位的录制。由于配音员每天随着时间、工作量的不同,音色也可能会产生一定的变化,所以采集后还要筛查出不同的声音进行剔除,留下更高质量的声音素材,因为声音质量的高低直接决定了AI配音最后的效果。
在声音采集完成之后,还需要AI来训练语音合成算法,AI参与语音合成,并不像下围棋等那样规则分明,语音合成规则模棱两可,许多情况下还要人为参与进来进行调试,因为AI语音不仅要完成简单的配音工作,还需要完成配音过程中的一些“副产物”,只有这样听起来才像真人。就比如一句话下来要出现呼吸的声音,不同音调配音后的呼吸声也有不同,因为机器人与真人很大的差别之一就是生理区别。
然后就是语音的音调,想要AI语音达到真人的水平,就要具备音调起伏的特点,该停顿的地方要停顿,该拉长声音的地方就要拉长。始终保持一种音调、一种语速表面上看去像是很专业的朗读者,但是在情绪方面、生理方面并显得并没有那么亲近。而对语音音调的调整,其实就像是对一张图片进行P图,其目的就是想让AI语音听起来更接近于真人。
AI语音未来是否能成为主流呢?
从现阶段来看,目前的AI语音确实能满足这些需求,并且还能做到“以假乱真”的水平,这在短视频行业也得到了广泛的应用。但是在与客户交互中,只需要一开口对话,大多数人立刻就能分辨出到底是不是AI配音。
此前一则短视频爆火,内容就是用户听出来客户指出客服是机器人后就陷入了“我不是机器人,我们用心做售后”的死循环当中,在业务范围内的对话,或许AI语音还能理解用户的意思,一旦超出一点点的业务范畴,AI语音立马就暴露出机器人的破绽。
在很大程度上,AI语音的交互更像是通讯行业的“单工模式”,听的时候不说话,说话的时候不听。在与真人交互过程中,通话对方会充当“捧哏”的角色,但在与AI交互过程中,当你说话时,对方会一直保持沉默,直到你将一段话说完全说完,之后停上一两秒的时间才能听到回复,而这一过程就会让用户轻而易举地发现对方是AI。
机器人与人的对话,用户往往会感到不被公平对待、不被尊重,最终给用户带来一种不信任感,这就很难提升成交率。所以对于客服这一群体而言,未来虽然必不可少的要使用到AI,但在使用过程中也要提升AI的水平,毕竟人与人之间的交流,往往是先处理感情,再处理事情。
AI语音未来或许将会成为主流,但距离那一天,就目前来看或许还任重道远!