尝试用MaxText复现微软Mell-E实验报告

项目地址: https://github.com/flyingblackshark/MaxTTS-Mel.git

实现了Mel输入和采样

难点:

  • 数据集较大,生成的mel占用了大量空间,收费较高。
  • 对结束位置预测较为困难,需要大量训练
  • 难以解决重复生成问题,相对于VQ型TTS来说
  • 相对于VQ型,量化比较困难,如何提高模型速度需要研究

优点:

  • 制作数据集简单,容易输入模型进行训练。
  • 生成质量较高
  • 采样需要的GPU性能较低