Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【长期】如何改模型,搞出更好效果 #436

Open
babysor opened this issue Mar 7, 2022 · 2 comments
Open

【长期】如何改模型,搞出更好效果 #436

babysor opened this issue Mar 7, 2022 · 2 comments

Comments

@babysor
Copy link
Owner

babysor commented Mar 7, 2022

合成器Synthesizer

将 synthesizer部分换为 tacotron2 详见 #296

声码器

@AyahaShirane
我发现合成器在达到一定数量的训练后,对质量影响更大的反而是声码器,hifigan能用更好的效果但始终有电噪音,现在有些新的项目采样lpcnet而非wavernn,据说是复杂度要远低于wavernn,但质量优于wavernn,可以达到类似hifigan的效果而不带电噪音,请问有考虑过引入lpcnet之类的新声码器的计划呢?

作者却苦于近期精力限制只能势单力薄处理一些小的bug,也看到issue区有不少爱好与开发者想要学习或二次改造更好满足自己需求,不过比较零碎难以展开。为了让项目和AI持续可以给大家提供更多价值,共同学习,我在issue区根据不同主题创建长期交流频道,若留言人数超过20也将建立对应交流群。

  • 如何改参数,搞出更逼真的克隆效果 435
  • 如何改模型,搞出更好效果 436
  • 训练克隆特定人声音&finetune 437
  • 学术/论文讨论/训练分析 438
  • 跨语言支持 440
  • 工程化/新场景讨论(绝不做恶 & 合法合规) 439
@MaxMax2016
Copy link

声码器可以参考一下:
❤❤❤SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice Generation
标题:SingGan:高保真歌声生成的生成性对抗性网络(声码器中加入F0输入,字节也这样做)
链接:https://arxiv.org/abs/2110.07468
演示:https://singgan.github.io/
作者:Feiyang Chen,Rongjie Huang,Chenye Cui,Yi Ren,Jinglin Liu,Zhou Zhao,Nicholas Yuan,Baoxing Huai
机构:Zhejiang University, Huawei Cloud
备注:vocoder, generative adversarial network, singing voice synthesis
摘要:由于超长的连续发音、高采样率和强的表现力,高保真歌唱语音合成对神经声码器来说是一项挑战。现有的用于文本到语音的神经声码器不能直接应用于歌唱语音合成,因为它们会导致生成的频谱图出现小故障,并且高频重建效果不佳。为了解决歌唱建模的困难,本文提出了一种具有生成对抗网络的歌唱声码器SingGAN。具体来说,
1)SingGAN使用源激发来缓解谱图中的小故障问题;(字节跳动也这么弄)
2)SingGAN采用多频带鉴别器,引入频域损耗和子带特征匹配损耗来监督高频重构。
据我们所知,SingGAN是第一个设计用于高保真多扬声器歌唱语音合成的声码器。实验结果表明,与以前的方法相比,SingGAN合成的人声质量要高得多(0.41MOS增益)。进一步的实验表明,结合FastSpeech~2作为声学模型,SingGAN在歌唱语音合成管道中实现了很高的鲁棒性,并且在语音合成中表现良好。

❤❤❤Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus
标题:Multi-Singer:基于大规模语料的多发音人歌声声码器
作者:Rongjie Huang, Feiyang Chen, Yi Ren, Jinglin Liu, Chenye Cui, Zhou Zhao
代码:https://github.com/Rongjiehuang/Multi-Singer
演示:https://multi-singer.github.io/#data
摘要:高保真度多歌手歌唱语音合成由于歌唱语音数据不足、歌手泛化能力有限、计算量大等问题,对神经声码器来说是一个挑战。现有的开放语料库由于规模和质量的不足,无法满足高保真声乐合成的要求。以前的声码器在多歌手建模方面有困难,并且在进行看不见的歌手歌唱的声音生成时出现了明显的退化。为了加快社区对歌唱嗓音的研究,我们发布了一个大规模的、多歌手的中文歌唱嗓音数据集OpenSinger。为了解决隐形歌唱者建模的困难,我们提出了一种基于生成对抗网络的快速多歌唱者声码器Multi-Singer。
具体来说,
1)Multi-Singer使用Mulit Band genertor来加速训练和推理过程。
2) Multi-Singer采用singer条件判别器和条件对抗训练目标,从声学特征(即mell -谱图)中获取并重建歌唱者身份。(字节跳动也是这样做的,必备模块)
3)为了监督在频域频谱包络中歌唱者身份的重建,我们提出了一种辅助的歌唱者感知损失;联合训练方法是一种有效的多歌唱者语音建模方法。(声纹联合训练)
实验结果验证了OpenSinger算法的有效性,表明Multi-Singer算法在速度和质量上都比以前的算法得到了提高。进一步的实验证明,Multi-Singer结合FastSpeech 2作为声学模型,在多singer歌唱语音合成流水线中具有较强的鲁棒性。

通用声码必备技术:

1,F0转换为激励,解决持续发音的断音;
2,判别器加入speaker embedding;
3,声纹损失约束;

@JerryZRF
Copy link

JerryZRF commented Mar 9, 2022

虽然我不太了解深度学习,但是我看到一些相关的文章。
这个训练的optimizer本来是Adam,不知道换成NAdam或者AdamW或者Adamax有没有什么帮助

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants