语音合成的方法和系统
2019-11-22

语音合成的方法和系统

本发明提供一种用于在客户端对文本内容进行语音合成的方法。该方法包括:基于客户端的语料库中的当前语料单元集合S当前,对文本内容进行语音合成;响应于判断需要更新客户端语料库的当前语料单元集合:分析文本内容,并生成具有相应语境特征的目标单元的列表,基于比客户端语料库的当前语料单元集合S当前更丰富的语料单元集合S总,根据语境特征为每个目标单元选择多个候选语料单元,根据多个候选单元为文本内容确定可用于语音合成的语料单元;以及基于所确定的语料单元,更新客户端语料库的当前语料单元集合。本发明还提供相应的系统。根据本发明的技术方案,客户端的TTS系统能够随着用户对该系统的进一步使用自适应的更新语料库,从而获得语音合成质量的有效改善。

当设备(TTS服务器或客户端设备)数据处理速度较慢时,则可以直接使用语境特征作为过滤准则。这种情况存在以下方案i和ii:

在步骤S402中,分析文本内容,并生成具有相应语境特征的目标单元的列表。这里,语境特征包括当前单元、韵律词的位置(头部、中间或末尾)、句中的位置以及左元音、右辅音等。

优选地,在步骤S405中,将用于更新的语料单元集合中未下载到客户端语料库中的语料单元集合3,进行打包。服务器将打包用于下载到客户端以丰富客户端语料库的S,。S.中各个语料单元的语音信息(音频波形)和语境信息将会包含在该包中。

将通过具体的示例,对图1所示系统的操作过程就行说明。

在步骤S304中,基于Ssti对该文本内容进行语音合成。通过对当前语料库中语料单元S的选择和拼接来将该文本内容转换成语音并通过扬声器输出。

在步骤S402中,分析文本内容,并生成具有相应语境特征的目标单元的列表。这里,语境特征包括当前单元、韵律词的位置(头部、中间或末尾)、句中的位置以及左元音、右辅音等。

如果判断结果为进行客户端语料库更新,则流程进行到步骤S306。如果判断结果为不再进行客户端语料库更新,则流程进行到步骤S308。

尽管图5中描述的计算机系统能够支持根据本发明的语音合成方案,但是该计算机系统只是计算机系统的一个例子。本领域的熟练技术人员可以理解,许多其它计算机系统设计也能实现本发明的实施方式。

本领域的技术人员可以理解,以上虽然给出了基于为历史文本信息的目标单元选择候选语料单元的多种实现方式的示例,但这些示例仅用于说明的目的,而能解释为对本发明的限制。实际上,可以使用本领域任何已知的方式在执行该步骤,因为在本发明的技术方案中仅关注基于为历史文本信息的目标单元选择候选语料单元的结果一该结果将作为客户端语料库更新的基础。

如上文所述,现有的技术方案难以使得用户在客户端进行文本到语音转换时得到显著改善的语音合成质量。这是因为虽然现有的技术方案也对客户端所维持的语料数据库进行动态更新(如利用根据主题的增量语料数据库),但是这种更新是基于预先设定的语境(主题)的,而依靠人为归类的语境来为将进行的语音合成选择增量语料库是不准确的,难以真正使得语料库有效地适合当前需要合成的内容。

在步骤S406中,流程结束。

之后,语料单元确定装置112将确定的语料单元集合通知语料库管理装置113。语料库管理装置113从TTS服务器11的语料库114中获取相应的语料单元(音频波形),以用于对客户端10的本地语料库104进行更新。语料库管理装置113优选地仅获取确定用于更新的语料单元集合中未包含在客户端10的Ssti中的语料单元的集合也即S,(在具体实现中,可以通过查阅TTS服务器11中维护的客户端语料库的配置文件(未示出)来确定该单元集合SJ。TTS服务器11经由收发装置111将发往客户端10以用于进行语料库更新。TTS服务器10可以更新其所维护的针对客户端10的配置文件以记录完成语料库更新后客户端10的语料库104的配置。