1 | import torch |
1 | import torch |
1 | a = torch.randn(10000, 1000) |
1 | import torch |
1 | import torch |
1 | a = torch.randn(10000, 1000) |
🌟(不能简单通过pip install 来安装)
1)解压 tar -zxvf sox-14.4.1.tar.gz
2)进入sox14.4.1目录中执行./configure
1 | ./configure --prefix=/ssd3/other/huangsj/sox_install |
3)执行 make命令
4)执行make install命令
1 | vim ~/.bash_profile |
path = kaldi/egs/librispeech/s5/local/da ta_prep.sh
1 | # 双重for循环 |
1 | (find -L $src -mindepth 1 -maxdepth 1 -type d | sort) |
1
2 ># 使用格式
>find [-H] [-L] [-P] [-D debugopts] [-Olevel] [path...] [expression]
1
2
3
4 >和符号链接相关的选项:
-P 不跟踪符号链接(默认行为)
-L 当 find 检查或打印有关文件的信息时, 所使用的信息应取自链接指向的文件的属性, 而不是链接本身
-H 和 -L 参数刚好相反, 当 find 检查或打印有关文件的信息时, 所使用的信息应取自符号链接的属性
1
2
3
4
5
6
7
8
9
10
11
12 >EXPRESSIONS(表达式):
OPTIONS(选项):
-d、-depth 在查找文件时, 首先查找当前目录中的文件, 然后再在其子目录中查找
-maxdepth n find 查找目录的最大深度
-mindepth n find 从指定的目录的第几层深度开始查找
-mount 查找文件时不跨越文件系统的 mount 点
-follow 和 ``-``L 参数类似
-regextype 指定后面所使用的正则表达式语法, 默认为 emacs
posix-awk 类 awk 的正则表达式语法
posix-basic 基本正则表达式
posix-egrep 不使用正则表达式
posix-extended 扩展正则表达式
1
2
3
4
5
6
7
8 >-type
b 块设备
c 字符设备
d 目录
p 命名管道
f 文件
l 链接文件
s socket 文件
🌟 想起顾芯怡教的一招
1 | hdfs dfs -ls - hdfs://haruna/home/byte_arnold_hl_speech_asr/user/huanglu.thu19/corpus/edu/chinglish_haitian_2kh_16k/wav_ark/k190/*.scp | wc -l |
1 >🌟 wc -l # 统计文件个数
1 >🌟 ls -l *.wav | wc -l # 统计某个目录下 某种后缀的文件个数
1 >ls -l *.wav | grep "^-" | wc -l
1 >grep "^-" # 过滤ls的输出信息,只保留一般文件,只保留目录是grep "^d"。
🌟 在自己电脑下,还是得 cd 到指定路径下才行,字节的 HDFS 数据库是只能那么读取列表,所以才可以那么用
1 | $ basename /tmp/test/file.txt |
1
2
3
4 >basename [pathname] [suffix]
>basename [string] [suffix]
>suffix为后缀,如果suffix被指定了,basename会将pathname或string中的suffix去掉。
1
2
3
4 >$ basename $PWD/1027.md
>1027.md
>$ basename $PWD/1027.md .md
>1027
1 | # 从说话人信息文件中提取性别 |
完成软著申请
完成 开题PPT 修改
完成 VC综述 论文整理
尚未完成 开题综述 主体部分(花了较多时间看格式处理)
阅读《AiShell-3》论文:值得分享一个亮点(speaker-embedding-cycle-consistence Loss)
Boild-polit 数据集在15043上有?
前端:Tacotron
后端:MelGAN
🌟特点:在多说话人合成任务上,为了进一步增加相似度,提出了“speaker identity feedback constraint”
公式上体现:
部分,先预训练,然后在训练 Tacotron 的时候参数不再参与训练 Frozen
Tacotron2 中,对长序列语音的合成,表现乏力;
通常改进方法是:从 hybrid-attention mechanism 改进为 purely location-based attention mechanisms ,即 Attention 机制的改进
但是这么弄,会使得 长句子的 韵律表现很差
本文转用 data augmentation 数据增强 来处理长句子合成问题
扩充后的数据用于微调收敛于原始数据集的TTS模型。
在语音合成任务中,之前较少看见 VAD 操作,一般在识别任务上用的比较多;
🌟备注: