
特点:
- 应用场景是: 一对一、平行数据
- 不需要文本辅助
- 适用的场景,类似于小爱同学,用于在已有的预训练的 TTS 语音合成系统,实现音色转换。
- 技术上,以 LSTM-RNN 作为 base line 。
- 实现上,动用了 Transformer Architecture && Context Preservation and Model Adaptation in an Attentional Seq2seq VC.
- 闪光点:训练速度快了 2.72 倍(每个 step) && 流畅度、相似度 比 base line 好一点
注意点:
- 提到了一篇 2017 年的 VC 综述文章,之前没见到过,再过一遍;
- 
模型:

- 介绍了一些 Attention 和 Transformer 相关背景信息,以及在语音场景的常见应用
- 本文 用 Transformer 来进行 基于 sp 特征的 句到句的 音色转换
三个Loss
- 类似Transformer 的Loss
- 额外的:在Transformer 上进行的 MultiHead 数目的调整(以此加快训练速度)
- 
- 目标真实 & 转换出来的目标
- 
- Attention 的损失(Guided attention):
- 
- 内容保存程度 损失: source 和 恢复预测的 source && target 和恢复预测的 target
学到的:
- 消融实验:更换单一变量:观察指标是 固定训练步数,以 正确转换的语句数目 作为衡量指标
另一篇
(未看完)

- 谈到 WaveNet 的自适应改进,对她不够熟悉
- 另外看招聘需求大都是要做合成的,转换没有需求;
- 所以 花点时间 跑了一下 Tacotron(源码后端是用griff-Lim),花时间 再弄懂一下代码
- 接下来再弄懂一下 r9y9 的 WaveNET 代码