跳至主要内容

FFM 福爾摩沙大模型 地端授權清單

注意事項
  • 模型推論設定:Inference Quantization = FP16,KV Cache Quantization = FP16/BF16,Batch size = 1
  • GPU記憶體包含模型權重、KV Cache與系統開銷等
FFM 模型系列模型型號序列長度GPU記憶體最小需求
(單一模型佈署)
Llama3.3-FFMLlama3.3-FFM-70B32K*198 GB
Llama3.2-FFMLlama3.2-FFM-11B-V32K*52 GB
Llama3.1-FFMLlama3.1-FFM-8B32K*35 GB
Llama3.1-FFM-70B32K*185 GB
Llama3.1-FFM-405B32K*915 GB
Llama3-FFMLlama3-FFM-8B8K27 GB
Llama3-FFM-70B8K165 GB
FFM-MistralFFM-Mistral-7B32K34 GB
FFM-Mixtral-8x7B32K48 GB
FFM-Llama2-v2FFM-Llama2-v2-7B4K17 GB
FFM-Llama2-v2-13B4K30 GB
FFM-Llama2-v2-70B4K154 GB
FFM-Llama2FFM-Llama2-7B4K17 GB
FFM-Llama2-13B4K30 GB
FFM-Llama2-70B4K154 GB
FFM-embeddingFFM-embedding-v2.18K2 GB
FFM-embedding-v28K2 GB
FFM-embedding2K2 GB
FFM-BLOOMZFFM-BLOOMZ-7B4K20 GB
FFM-BLOOMZ-176B4K389 GB
可提供序列長度128K的版本,GPU記憶體需另外估算