1213组会汇报

1213组会汇报


Done:

  1. PGAN 训起来了,用的 AiShell所有 train 训练集,测试集没混进去
  2. Deep Voice 的 train1 提取 ppgs 的网络也训起来了,用的Timit,自带 Phonetic 信息
  3. VCTK-Corpus-0.92.zip 还在043下载,速度比较慢

Did & Doing:

  1. StarGAN-VC 2复现环节
  2. 把 G 和 D 网络结构写好了,还差 一个 dataloader 写一下,另外 Solver 部分模仿着写一下就差不多了
  3. 特征用的是 PGAN 处理的方式(整体训练集做 均值&方差 归一化处理),为了和后端配合上,直接用vocoder的训练数据
  4. 🌟困难点
    1. 跟进了 CIN 在图像领域的具体实现,照猫画虎写出来(IN的改进,加上 特征偏置)
    2. image-20201213171056728
    3. 论文中提到的 GSP ,查了别人不同版本代码,挑了一个合适的方式移植进来
    4. 论文的尺寸结构 是【36维,128帧】,和咱们 mel 80 不对等,进行尺寸匹配计算

论文方面:

  1. 近期看到很多围绕

    1. Speaker embedding 循环损失

      • 「OPTIMIZING VOICE CONVERSION NETWORK WITH CYCLE CONSISTENCY LOSS OF SPEAKER IDENTITY」
    2. ❤️ “stargan-vc2 进一步改造”、——(投到了 2021 icassp

      • WEIGHT ADAPTIVE INSTANCE NORMALIZATION(WAStarGAN-VC

      • 「TOWARDS LOW-RESOURCE STARGAN VOICE CONVERSION USING WEIGHT ADAPTIVE INSTANCE NORMALIZATION」

    3. PPG实现多对多转换” 「Phonetic Posteriorgrams based Many-to-Many Singing Voice Conversion via Adversarial Training」的论文

  1. 主要的创新点都不多,其中 stargan-vc2改进,基于的是 其中提到的 CIN 结构,再把 one-hot 类型改进成 同步训练的 Speaker Encoder 出来的 Speaker Embedding 来改;但是声码器还是用的 WORLD

    1. demo网址 : https://minidemo.dcs.shef.ac.uk/wastarganvc/
  1. 咱们的想法算是综合上面两篇

(论文具体细节内容还没全部看完,接下来看一下)


下周安排

  1. dataloadersolver 尽快写完,让代码先跑通
  2. 先试 one-hot 类型的,再试 AiShell3 的 Speaker encoder 方式提取的【256】维 embedding
    • 嵌入 embedding 两个可能的实现方式路线:
      1. 同样用 CIN;但是感觉不太符合 CIN 本意是针对 one-hot 而设计的初衷
      2. 不用CIN,直接在 通道层 方向上拼接:像一代那样,但是 2 代 这里已经 reshape 成一维卷积层了
      3. 可以分别做实验看效果,或者直接选第二个就好
  3. 再跟进一下 看近期有没有新的针对 「隐变量」路线的VC论文的代码