AI语音未来是否能成为主流？-今日新鲜事

短视频行业的兴起，不少创作者涌入了这一赛道，并且衍生出了许多与短视频息息相关的行业，就比如AI语音。其实我们在各大视频平台所听到的视频配音，不少来自AI，并且播放数据还非常漂亮，那不少网友可能会产生这样的疑问，AI语音是否能成为未来的主流？

所谓AI语音，其实就是机器人朗读，在早期的AI配音方面，机器人读出来的声音，每一个字我们都能听懂，但连起来读就显得有些刻板，听时间长了会让人头疼。当然了，早期的AI配音或许只是一个“附带”功能，登不上台面。然而，AI技术有高低之分，尤其是近几年的AI配音，完全可以达到“以假乱真”的现象，比如冬奥会期间数字人冬冬的配音，如果不看虚拟人，完全听不出这是AI语音。

AI语音为什么能发展到能“以假乱真”的地步呢？

之所以现在的AI配音能发展到真人的水平，其实就需要有真人的参与。首先要挑选声音素材配音工作者，不仅普通话要标准，而且不同场景下配音员的音色、感情色彩也要不同。就比如说城市宣传方面，音色就得偏向于浑厚一点，如果作为400客服，声音就得亲切。

而在声音采集方面，不仅要对配音员的拼音字母进行采集，还要对前舌音、后舌音、拼音组合、音色等进行全方位的录制。由于配音员每天随着时间、工作量的不同，音色也可能会产生一定的变化，所以采集后还要筛查出不同的声音进行剔除，留下更高质量的声音素材，因为声音质量的高低直接决定了AI配音最后的效果。

在声音采集完成之后，还需要AI来训练语音合成算法，AI参与语音合成，并不像下围棋等那样规则分明，语音合成规则模棱两可，许多情况下还要人为参与进来进行调试，因为AI语音不仅要完成简单的配音工作，还需要完成配音过程中的一些“副产物”，只有这样听起来才像真人。就比如一句话下来要出现呼吸的声音，不同音调配音后的呼吸声也有不同，因为机器人与真人很大的差别之一就是生理区别。

然后就是语音的音调，想要AI语音达到真人的水平，就要具备音调起伏的特点，该停顿的地方要停顿，该拉长声音的地方就要拉长。始终保持一种音调、一种语速表面上看去像是很专业的朗读者，但是在情绪方面、生理方面并显得并没有那么亲近。而对语音音调的调整，其实就像是对一张图片进行P图，其目的就是想让AI语音听起来更接近于真人。

AI语音未来是否能成为主流呢？

从现阶段来看，目前的AI语音确实能满足这些需求，并且还能做到“以假乱真”的水平，这在短视频行业也得到了广泛的应用。但是在与客户交互中，只需要一开口对话，大多数人立刻就能分辨出到底是不是AI配音。

此前一则短视频爆火，内容就是用户听出来客户指出客服是机器人后就陷入了“我不是机器人，我们用心做售后”的死循环当中，在业务范围内的对话，或许AI语音还能理解用户的意思，一旦超出一点点的业务范畴，AI语音立马就暴露出机器人的破绽。

在很大程度上，AI语音的交互更像是通讯行业的“单工模式”，听的时候不说话，说话的时候不听。在与真人交互过程中，通话对方会充当“捧哏”的角色，但在与AI交互过程中，当你说话时，对方会一直保持沉默，直到你将一段话说完全说完，之后停上一两秒的时间才能听到回复，而这一过程就会让用户轻而易举地发现对方是AI。

机器人与人的对话，用户往往会感到不被公平对待、不被尊重，最终给用户带来一种不信任感，这就很难提升成交率。所以对于客服这一群体而言，未来虽然必不可少的要使用到AI，但在使用过程中也要提升AI的水平，毕竟人与人之间的交流，往往是先处理感情，再处理事情。

AI语音未来或许将会成为主流，但距离那一天，就目前来看或许还任重道远！

进行,用户,机器人,音调,方面,真人,未来,语音,声音,视频,观点评论

相关文章