未分类 – 飞翔黑鲨的博客

MaxText/JetStream推理最小部署和自定义方法

us-docker.pkg.dev/cloud-tpu-images/inference/jetstream-http:v0.2.2 对应的github路径是ai-on-gke项目的tutorials-and-examples/inference-servers/jetstream/http-server

us-docker.pkg.dev/google-samples/containers/gke/gradio-app:v1.0.3对应的是GoogleCloudPlatform/kubernetes-engine-samples项目的ai-ml/llm-serving-gemma/gradio

us-docker.pkg.dev/cloud-tpu-images/inference/maxengine-server:v0.2.2对应的是AI-Hypercomputer/maxtext项目以及 ai-on-gke项目的tutorials-and-examples/inference-servers/jetstream/maxtext/maxengine-server

宇宙究极GCP白嫖指南

前端方案：

尽量使用us-west1 / us-cetrnal1 / us-east1 的e2-micro规格VM，附加30GB standard persistent disk，不要使用premium网络，选择Standard可以享受免费200GB流量. VM可以用来部署反向代理，TPU自动化抢占等任务，任务尽量和VM是同一区域的。

CDN选择CloudFlare接入，如果选择了Standard网络会先使用200GB免费流量，根据GCP CDN interconnect从US拉费用最低能够到0.05 USD /GB

鉴权/IAM系统选择FireBase Authentication免费接入。

后端方案：

选择Cloud Run作为Serverless提供API服务，Cloud Run免费提供两百万次操作，三十六万 GB * s(秒) 内存，十八万 vCPU * s(秒)，同区域内网通信没有网络费用

API Gateway服务聚合各项Serverless服务，两百万次操作内免费，同区域内网通信不收网络费用

数据库选择Cloud Firestore NoSQL数据库，1GB存储免费，同区域内网通信不收网络费用

队列系统采用Cloud Tasks，前一百万条请求不收费

TPU集群方案：

看你白嫖能力了，上不封顶，目前最高记录国外科研团队白嫖到了8960个TPU v4

TPU + Docker部署JAX-F5-TTS指南

安装gcsfuse

(sudo NEEDRESTART_MODE=a bash || bash) <<'EOF'
apt update && \
apt install -y numactl lsb-release gnupg curl net-tools iproute2 procps lsof git ethtool && \
export GCSFUSE_REPO=gcsfuse-`lsb_release -c -s`
echo "deb https://packages.cloud.google.com/apt $GCSFUSE_REPO main" | tee /etc/apt/sources.list.d/gcsfuse.list
curl https://packages.cloud.google.com/apt/doc/apt-key.gpg | apt-key add -
apt update -y && apt -y install gcsfuse
rm -rf /var/lib/apt/lists/*
EOF

挂载

gcsfuse --implicit-dirs --file-cache-max-size-mb=32768 --cache-dir=/tmp 存储桶名称 /tmp/gcsfuse

加载保存的F5镜像

docker load -i /tmp/gcsfuse/f5/f5_image.tar

启动镜像

docker run \
--net=host \
--privileged \
-v /tmp/gcsfuse:/bucket \
f5_image:dev \
python -m src.maxdiffusion.f5_gradio_ui_load_aot /bucket/f5/f5_docker.yml