Fish-Speech-Maxtext使用方法介绍-1

数据集处理介绍

背景:由于我们需要使用Grain 作为我们Dataloader,因此我们需要使用Grain支持的格式,如ArrayRecord / HuggingFace(Paquet) 等二进制格式。

本项目处理方法

使用Grain 从HuggingFace上的 MikhailT/hifi-tts 数据集读取数据,读取其中的audio列和text_normalized列进行处理。

首先用Fish Speech Tokenizer对text_normalized进行转化,将其转化成Tokens。然后经过Grain的Operations处理后形成Batch读入,利用TPUv4通过声码器进行批量提取,将其转化成音频Tokens。

随后利用循环逐个处理,将文本Tokens拼接上已经转为Tokens的前缀和后缀,表示user输入,然后拼接上音频Tokens表示assistant输出。这样就可以方便的输入LLM进行训练