Fish-Speech-Maxtext使用方法介绍-1

数据集处理介绍

背景：由于我们需要使用Grain 作为我们Dataloader，因此我们需要使用Grain支持的格式，如ArrayRecord / HuggingFace(Paquet) 等二进制格式。

使用Grain 从HuggingFace上的 MikhailT/hifi-tts 数据集读取数据，读取其中的audio列和text_normalized列进行处理。

首先用Fish Speech Tokenizer对text_normalized进行转化，将其转化成Tokens。然后经过Grain的Operations处理后形成Batch读入，利用TPUv4通过声码器进行批量提取，将其转化成音频Tokens。

随后利用循环逐个处理，将文本Tokens拼接上已经转为Tokens的前缀和后缀，表示user输入，然后拼接上音频Tokens表示assistant输出。这样就可以方便的输入LLM进行训练