《Voice Conversion with transformer network-samsung》论文总结

![image-20200617224333150](./Voice Conversion with transformer network-samsung论文总结/image-20200617224333150.png)


特点:

  1. 应用场景是: 一对一、平行数据
  2. 不需要文本辅助
  3. 适用的场景,类似于小爱同学,用于在已有的预训练的 TTS 语音合成系统,实现音色转换。
  4. 技术上,以 LSTM-RNN 作为 base line 。
  5. 实现上,动用了 Transformer Architecture && Context Preservation and Model Adaptation in an Attentional Seq2seq VC.
  6. 闪光点:训练速度快了 2.72 倍(每个 step) && 流畅度、相似度 比 base line 好一点

注意点:

  1. 提到了一篇 2017 年的 VC 综述文章,之前没见到过,再过一遍;
  2. ![image-20200617225134062](./Voice Conversion with transformer network-samsung论文总结/image-20200617225134062.png)

模型:

![image-20200617231000814](./Voice Conversion with transformer network-samsung论文总结/image-20200617231000814.png)


  1. 介绍了一些 Attention 和 Transformer 相关背景信息,以及在语音场景的常见应用
  2. 本文 用 Transformer 来进行 基于 sp 特征的 句到句的 音色转换

三个Loss

  1. 类似Transformer 的Loss
  2. 额外的:在Transformer 上进行的 MultiHead 数目的调整(以此加快训练速度)
  3. ![image-20200621184615655](/Users/huangshengjie/Library/Application Support/typora-user-images/image-20200621184615655.png)
  4. 目标真实 & 转换出来的目标
  5. ![image-20200621184636954](/Users/huangshengjie/Library/Application Support/typora-user-images/image-20200621184636954.png)
  6. Attention 的损失(Guided attention):
  7. ![image-20200621184700921](/Users/huangshengjie/Library/Application Support/typora-user-images/image-20200621184700921.png)
  8. 内容保存程度 损失: source 和 恢复预测的 source && target 和恢复预测的 target

学到的:

  • 消融实验:更换单一变量:观察指标是 固定训练步数,以 正确转换的语句数目 作为衡量指标

另一篇

(未看完)

![image-20200621182450382](/Users/huangshengjie/Library/Application Support/typora-user-images/image-20200621182450382.png)

  • 谈到 WaveNet 的自适应改进,对她不够熟悉
  • 另外看招聘需求大都是要做合成的,转换没有需求;
  • 所以 花点时间 跑了一下 Tacotron(源码后端是用griff-Lim),花时间 再弄懂一下代码
  • 接下来再弄懂一下 r9y9WaveNET 代码