Fish-Speech-Maxtext使用方法介绍-1

数据集处理介绍

背景:由于我们需要使用Grain 作为我们Dataloader,因此我们需要使用Grain支持的格式,如ArrayRecord / HuggingFace(Paquet) 等二进制格式。

本项目处理方法

使用Grain 从HuggingFace上的 MikhailT/hifi-tts 数据集读取数据,读取其中的audio列和text_normalized列进行处理。

首先用Fish Speech Tokenizer对text_normalized进行转化,将其转化成Tokens。然后经过Grain的Operations处理后形成Batch读入,利用TPUv4通过声码器进行批量提取,将其转化成音频Tokens。

随后利用循环逐个处理,将文本Tokens拼接上已经转为Tokens的前缀和后缀,表示user输入,然后拼接上音频Tokens表示assistant输出。这样就可以方便的输入LLM进行训练

AURORA粉丝翻译指南

要求:英伟达显卡(NVIDIA GPU)

第一步 下载Whisper-UI

下载 https://github.com/jhj0517/Whisper-WebUI/archive/refs/heads/master.zip 并解压

第二步 安装

在Windows商城里面安装Python

右键选择“在终端中打开”

输入 pip install -r requirements.txt

启用OpenAI Whisper v3 语音识别模型

右键user-start-webui.bat 选择“显示更多选项”

点击”编辑“

set下方添加一行set DISABLE_FASTER_WHISPER=true

第三步 运行

双击 user-start-webui.bat 运行WebUI

模型选择large-v3

将视频或音频文件拖入即可

最后点击Generate开始识别音频

【1】处可查看结果和路径 点击【2】处可以跳转到字幕文件生成的目录

FLAX框架教程-基础知识篇-1

FLAX框架教程-1

介绍JAX

JAX 是一个面向数组的数值计算库(类似于 NumPy),支持自动微分和即时编译(JIT),以实现高性能的机器学习研究。

  • JAX 提供了一个统一的类似 NumPy 的接口,用于在 CPU、GPU 或 TPU 上运行计算,并支持本地或分布式环境。
  • JAX 通过 Open XLA(一个开源的机器学习编译器生态系统)内置即时编译(JIT)。
  • JAX 函数支持通过自动微分转换高效计算梯度。
  • JAX 函数可以自动向量化,高效地将其映射到表示输入批次的数组上。

介绍FLAX

FLAX即Neural Networks For JAX(基于JAX的神经网络框架)

Flax 为使用 JAX 构建神经网络的研究人员和开发者提供了灵活且完整的用户体验,充分发挥 JAX 的强大功能。

Flax 的核心是 NNX ——一个简化的 API,让用户能够更轻松地创建、检查、调试和分析 JAX 中的神经网络。Flax NNX 对 Python 的引用语义提供了一流支持,使用户能够使用常规的 Python 对象来表达模型。Flax NNX 是此前 Flax Linen API 的演进版本,结合多年的实践经验,带来了更加简单和用户友好的 API。

因此本教程会使用最新的NNX,而不是原有的Linen API

配置JAX环境

由于使用JAX的一大优势是可以移植到TPU上面进行使用,我们选择WSL作为学习和实验环境。

安装VSCode

点击Download for Windows下载

https://code.visualstudio.com

配置WSL

首先确认你的电脑系统版本是Windows 11,然后执行下面指令,按照引导步骤即可

wsl --install

新建文件夹并开启VSCode

mkdir jax-test && cd jax-test

安装JAX

如果只使用CPU进行调试执行

pip install jax

如果使用GPU进行调试执行

pip install -U "jax[cuda12]"

安装FLAX