《Voice Conversion with transformer network-samsung》论文总结

发表于 2020-06-14 更新于 2024-09-22 分类于论文阅读笔记， test 阅读次数：阅读次数：
本文字数： 1.5k 阅读时长 ≈ 1 分钟

![image-20200617224333150](./Voice Conversion with transformer network-samsung论文总结/image-20200617224333150.png)

特点：

应用场景是：一对一、平行数据
不需要文本辅助
适用的场景，类似于小爱同学，用于在已有的预训练的 TTS 语音合成系统，实现音色转换。
技术上，以 LSTM-RNN 作为 base line 。
实现上，动用了 Transformer Architecture && Context Preservation and Model Adaptation in an Attentional Seq2seq VC.
闪光点：训练速度快了 2.72 倍（每个 step） && 流畅度、相似度比 base line 好一点

注意点：

提到了一篇 2017 年的 VC 综述文章，之前没见到过，再过一遍；
![image-20200617225134062](./Voice Conversion with transformer network-samsung论文总结/image-20200617225134062.png)

模型：

![image-20200617231000814](./Voice Conversion with transformer network-samsung论文总结/image-20200617231000814.png)

介绍了一些 Attention 和 Transformer 相关背景信息，以及在语音场景的常见应用
本文用 Transformer 来进行基于 sp 特征的句到句的音色转换

三个Loss

类似Transformer 的Loss
额外的：在Transformer 上进行的 MultiHead 数目的调整（以此加快训练速度）
![image-20200621184615655](/Users/huangshengjie/Library/Application Support/typora-user-images/image-20200621184615655.png)
目标真实 & 转换出来的目标
![image-20200621184636954](/Users/huangshengjie/Library/Application Support/typora-user-images/image-20200621184636954.png)
Attention 的损失（Guided attention）：
![image-20200621184700921](/Users/huangshengjie/Library/Application Support/typora-user-images/image-20200621184700921.png)
内容保存程度损失： source 和恢复预测的 source && target 和恢复预测的 target

学到的：

消融实验：更换单一变量：观察指标是 固定训练步数，以正确转换的语句数目作为衡量指标

另一篇

（未看完）

![image-20200621182450382](/Users/huangshengjie/Library/Application Support/typora-user-images/image-20200621182450382.png)

谈到 WaveNet 的自适应改进，对她不够熟悉
另外看招聘需求大都是要做合成的，转换没有需求；
所以花点时间跑了一下 Tacotron（源码后端是用griff-Lim），花时间再弄懂一下代码
接下来再弄懂一下 r9y9 的 WaveNET 代码