本文由中科院-极限元“智能交互联合实验室”投稿
语音合成又称文语转换(Text-To-Speech),简称TTS,指通过机械的、电子的方法生成语音的技术。
随着科技的发展,合成语音的自然度和音质均得到了明显的改善。目前,语音合成技术在我们生活中具有广泛的应用,如电子阅读、车载语音导航、银行医院排号系统、交通播报等等,这些应用场景都离不开语音合成。
简单来说语音合成分为文本分析、韵律分析和声学分析三个部分。通过文本分析提取出文本特征,在此基础上预测基频、时长、节奏等多种韵律特征,然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。整个过程类似于“编码、信息匹配,解码的过程”。
语音合成常用的两种方法:
一种是参数语音合成,另一种则是拼接合成。波形拼接语音合成的过程更容易理解,即在语料库中抽取合适的拼接单元,拼接成为句子。参数语音合成则需要对音库进行参数化建模,根据训练得到的模型预测出韵律参数和声学参数。
波形拼接语音合成需要对录音人进行长达几十个小时以上的录音采集,而参数语音合成则只需要十个小时的录音采集,即可完成一套定制化语音包的制作 。在体验效果上,拼接拼接合成的语音更加贴近真实发音,但是通过参数合成的语音更稳定。
下图为基于波形拼接:
下图为基于统计参数:
如何让机器说话更自然,有情感
从合成的发展历史来看,表现力、音质、复杂度和自然度一直是合成技术所追求的四点。但是目前水平下的合成语音很难体现出情感特征,例如在韵律表现上不够灵活,声调变化上相对死板。
让机器拥有自然、有情感、高表现力的声音,依旧是语音合成技术的一大难点。
摆脱平铺直叙,使合成语言更具有表现力高立足于以下条件:
1、情感丰富的大数据,如:更自然的发音、更丰富的情感、更高更强的表现力
2、新技术的应用
(1)深度神经网络技术已经成功应用到韵律模型、声学模型预测,并集成端到端的语音合成模型;
(2)弹性单元挑选技术,让合成语音更逼近真人发音;
(3)立足于大量数据的文本分析技术让合成系统更理解人类的语言;
3、强需求应用场景,如:语音导航、小说播报、个性化需求等。
语音合成技术已全面支持多方言、多语种、多音色的选择,专业MOS评分可达4.0以上,为用户提供浑厚男声、甜美女声,并可根据用户需求实现音库定制,满足用户的个性化应用,例如:明星声音定制、童声定制、方言定制等。 从两个角度来说,一. 音色的定制化,需要跟踪录大量的音库,重新训练一个模型;二. 个性化表示方法的定制化,可以录一些数据,通过深度学习训练模型,自适应的方法来实现。
|