Fish-Speech-Maxtext使用方法介绍-1

数据集处理介绍

背景：由于我们需要使用Grain 作为我们Dataloader，因此我们需要使用Grain支持的格式，如ArrayRecord / HuggingFace(Paquet) 等二进制格式。

本项目处理方法

使用Grain 从HuggingFace上的 MikhailT/hifi-tts 数据集读取数据，读取其中的audio列和text_normalized列进行处理。

首先用Fish Speech Tokenizer对text_normalized进行转化，将其转化成Tokens。然后经过Grain的Operations处理后形成Batch读入，利用TPUv4通过声码器进行批量提取，将其转化成音频Tokens。

随后利用循环逐个处理，将文本Tokens拼接上已经转为Tokens的前缀和后缀，表示user输入，然后拼接上音频Tokens表示assistant输出。这样就可以方便的输入LLM进行训练

AURORA粉丝翻译指南

要求：英伟达显卡(NVIDIA GPU)

第一步下载Whisper-UI

下载 https://github.com/jhj0517/Whisper-WebUI/archive/refs/heads/master.zip 并解压

第二步安装

在Windows商城里面安装Python

右键选择“在终端中打开”

输入 pip install -r requirements.txt

启用OpenAI Whisper v3 语音识别模型

右键user-start-webui.bat 选择“显示更多选项”

点击”编辑“

set下方添加一行set DISABLE_FASTER_WHISPER=true

第三步运行

双击 user-start-webui.bat 运行WebUI

模型选择large-v3

将视频或音频文件拖入即可

最后点击Generate开始识别音频

【1】处可查看结果和路径点击【2】处可以跳转到字幕文件生成的目录

FLAX框架教程-基础知识篇-1

FLAX框架教程-1

介绍JAX

JAX 是一个面向数组的数值计算库（类似于 NumPy），支持自动微分和即时编译（JIT），以实现高性能的机器学习研究。

JAX 提供了一个统一的类似 NumPy 的接口，用于在 CPU、GPU 或 TPU 上运行计算，并支持本地或分布式环境。
JAX 通过 Open XLA（一个开源的机器学习编译器生态系统）内置即时编译（JIT）。
JAX 函数支持通过自动微分转换高效计算梯度。
JAX 函数可以自动向量化，高效地将其映射到表示输入批次的数组上。

介绍FLAX

FLAX即Neural Networks For JAX(基于JAX的神经网络框架)

Flax 为使用 JAX 构建神经网络的研究人员和开发者提供了灵活且完整的用户体验，充分发挥 JAX 的强大功能。

Flax 的核心是 NNX ——一个简化的 API，让用户能够更轻松地创建、检查、调试和分析 JAX 中的神经网络。Flax NNX 对 Python 的引用语义提供了一流支持，使用户能够使用常规的 Python 对象来表达模型。Flax NNX 是此前 Flax Linen API 的演进版本，结合多年的实践经验，带来了更加简单和用户友好的 API。

因此本教程会使用最新的NNX，而不是原有的Linen API

配置JAX环境

由于使用JAX的一大优势是可以移植到TPU上面进行使用，我们选择WSL作为学习和实验环境。

安装VSCode

点击Download for Windows下载

https://code.visualstudio.com

配置WSL

首先确认你的电脑系统版本是Windows 11，然后执行下面指令，按照引导步骤即可

wsl --install

新建文件夹并开启VSCode

mkdir jax-test && cd jax-test

安装JAX

如果只使用CPU进行调试执行

pip install jax

如果使用GPU进行调试执行

pip install -U "jax[cuda12]"

安装FLAX

pip install flax