在TPU v4通过vllm运行QwQ 32B的教程

首先克隆源代码

git clone https://github.com/vllm-project/vllm.git

在每个worker上安装依赖

cd vllm && pip install -r requirements-tpu.txt

安装库

sudo apt-get update && sudo NEEDRESTART_MODE=a apt-get install libopenblas-base libopenmpi-dev libomp-dev -y

安装vllm

cd vllm && VLLM_TARGET_DEVICE=”tpu” python setup.py develop

开启ray头节点

ray start –head –port=6379

其他worker连接头节点

ray start –address=’xx.xx.xx.xx:6379′

启动openai兼容api server

python3 -m vllm.entrypoints.openai.api_server –host=0.0.0.0 –port=8000 –tensor-parallel-size=芯片数量(4或8 由于有40个head因此此选项只能说4或8) –model=Qwen/QwQ-32B –trust-remote-code

探索最强TTS模型之路

Diffusion TTS如F5-TTS拥有强大的zero-shot能力,能够很好的模仿参考音频的节奏和音色,可控性极强,生成速度快,但是算力要求巨大。

基于Continuous Token的AR TTS模型,如Mell-E ,算力要求在Diffusion和离散AR之间,属于一种折中选择。

基于Discrete Token的AR TTS模型,如VALL-E,训练要求很高,需要大量数据进行训练,推理性能要求最低。

如果我们能够使用一个Diffusion TTS模型,或者一个AR + Diffusion的混合模型作为teacher模型,利用算力合成大量优质的音频。

用一个算力要求较低的NAR或者AR模型作为student模型,学习teacher模型的优秀性能。就能够实现用较低算力合成优质的音频。

尝试用MaxText复现微软Mell-E实验报告

项目地址: https://github.com/flyingblackshark/MaxTTS-Mel.git

实现了Mel输入和采样

难点:

  • 数据集较大,生成的mel占用了大量空间,收费较高。
  • 对结束位置预测较为困难,需要大量训练
  • 难以解决重复生成问题,相对于VQ型TTS来说
  • 相对于VQ型,量化比较困难,如何提高模型速度需要研究

优点:

  • 制作数据集简单,容易输入模型进行训练。
  • 生成质量较高
  • 采样需要的GPU性能较低

Zitadel SSO FastAPI后端实战

项目设置里面勾选 权限(角色)断言 和 验证时检查授权

类型选择User Agent,命名为FastAPI Backend

验证类型选PKCE

回调地址可填写可不填,如果不需要让客户错误访问后端时跳转就不填

将Token类型选择为JWT,勾选权限写入Token

由于我们只是拿前端JWT做校验,所以不符合OIDC标准也无所谓

Fish-Speech-Maxtext使用方法介绍-1

数据集处理介绍

背景:由于我们需要使用Grain 作为我们Dataloader,因此我们需要使用Grain支持的格式,如ArrayRecord / HuggingFace(Paquet) 等二进制格式。

本项目处理方法

使用Grain 从HuggingFace上的 MikhailT/hifi-tts 数据集读取数据,读取其中的audio列和text_normalized列进行处理。

首先用Fish Speech Tokenizer对text_normalized进行转化,将其转化成Tokens。然后经过Grain的Operations处理后形成Batch读入,利用TPUv4通过声码器进行批量提取,将其转化成音频Tokens。

随后利用循环逐个处理,将文本Tokens拼接上已经转为Tokens的前缀和后缀,表示user输入,然后拼接上音频Tokens表示assistant输出。这样就可以方便的输入LLM进行训练

AURORA专辑 《What Happened To The Heart》评价

1. Echo Of My Shadow

舒缓的电子音乐,配合AURORA令人放松的人声,让人似乎逐渐走进一个迷人的夜晚,月光下的树影中有一位迷人的仙子在歌唱。

2. To Be Alright

灵动的电子乐,音乐节奏恰如心脏的泵动,让人感到莫名的欣快。

3. Your Blood

中规中矩的电子乐,伴随着轻松的弦乐,配合MV看还不错。

4. The Conflict Of The Mind

舒缓的电子乐,中规中矩,感觉氛围营造上面不如第一首。

5. Some Type Of Skin

从开始的舒缓逐渐加快,中间爆发的高音仿佛直达了天堂。

6. The Essence

弦乐主导的一首曲子,听感一般,人声从平静到爆发的过度不太自然。

7. Earthly Delights

节奏较快的一首歌曲,开始有一种庄严感,过渡到一种紧迫感,最后爆发。

8. When The Dark Dresses Lightly

节奏明快的一首电子乐,感觉作为游戏配乐很合适,和声很好听。

9. A Soul With No King

Remix版好听

10. Dreams

本专辑最好听的一首歌,仿佛躺进了棉花糖里面,感觉身体逐渐失去了重力,真的进入了一场梦。弦乐和鼓营造了极佳的氛围感,人声的高音恰到好处,没有太尖锐而是平缓的转音。

11. My Name

开头添加了一些Glitch音,构造了一种混乱的感觉,其中古筝的声音又有一种和谐的感觉,构造了一种混乱与和谐碰撞的感觉。

12. Do you feel?

FX音效和响板的声音很突出。后面听着像Disco音乐

13. Starvation

超级大爆,Hard Bass一出来直接提神醒脑。

14. The Blade

作为游戏音乐的潜力很大,节奏感超强。仿佛手里拿着刀锋的女武神站在你面前。

15. My Body Is Not Mine

有一点pop音乐的感觉,还不错。

16. Invisible Wounds

感觉站在光芒下面,弦乐的声音舒缓释放,AURORA的声音抚慰人心。

新歌点评

Your Blood:AURORA风格大转变,歌曲整体似乎过于平淡了,歌词中规中矩.电音和人声的配合不太好,高音甚至有点刺耳,听感不是很好.MV很廉价也很迷惑,感觉拍的一般.

The Conflict of The Mind:比Your Blood听感稍好,这首歌的Lead音色能更好衬托出AURORA的人声.MV比Your Blood的稍好,氛围感很好.