《AiShell3》

1108组会:

  • 完成软著申请

  • 完成 开题PPT 修改

  • 完成 VC综述 论文整理

  • 尚未完成 开题综述 主体部分(花了较多时间看格式处理

  • 阅读《AiShell-3》论文:值得分享一个亮点(speaker-embedding-cycle-consistence Loss)


Boild-polit 数据集在15043上有?

image-20201108153938426


  • 前端:Tacotron

  • 后端:MelGAN

  • 🌟特点:在多说话人合成任务上,为了进一步增加相似度,提出了“speaker identity feedback constraint

  • 公式上体现:

    • image-20201108153543937
  • 部分,先预训练,然后在训练 Tacotron 的时候参数不再参与训练 Frozen


另一些亮点:

  1. Tacotron2 中,对长序列语音的合成,表现乏力;

    • 通常改进方法是:从 hybrid-attention mechanism 改进为 purely location-based attention mechanisms ,即 Attention 机制的改进

    • 但是这么弄,会使得 长句子的 韵律表现很差

    • 本文转用 data augmentation 数据增强 来处理长句子合成问题

    • 扩充后的数据用于微调收敛于原始数据集TTS模型

  2. 在语音合成任务中,之前较少看见 VAD 操作,一般在识别任务上用的比较多;

    • 本文在数据预处理上,用 基于能量谱的 VAD 来对训练集 语音开始部分的静音帧进行去除
    • 帮助加速后续的 优化对齐环节

🌟备注:

  1. 在公司里 && VCC2020中,很多队伍提到,用 24k 的生成效果比 16k 提升显著,本文是用16k,之后可从这个点做稍微提升