FFM 福爾摩沙大模型地端授權清單

注意事項

模型推論設定：Inference Quantization = FP16，KV Cache Quantization = FP16/BF16，Batch size = 1
GPU記憶體包含模型權重、KV Cache與系統開銷等

FFM 模型系列	模型型號	序列長度	GPU記憶體最小需求 (單一模型佈署)
Llama3.3-FFM	Llama3.3-FFM-70B	32K*	198 GB
Llama3.2-FFM	Llama3.2-FFM-11B-V	32K*	52 GB
Llama3.1-FFM	Llama3.1-FFM-8B	32K*	35 GB
	Llama3.1-FFM-70B	32K*	185 GB
	Llama3.1-FFM-405B	32K*	915 GB
Llama3-FFM	Llama3-FFM-8B	8K	27 GB
Llama3-FFM	Llama3-FFM-70B	8K	165 GB
FFM-Mistral	FFM-Mistral-7B	32K	34 GB
FFM-Mistral	FFM-Mixtral-8x7B	32K	48 GB
FFM-Llama2-v2	FFM-Llama2-v2-7B	4K	17 GB
	FFM-Llama2-v2-13B	4K	30 GB
	FFM-Llama2-v2-70B	4K	154 GB
FFM-Llama2	FFM-Llama2-7B	4K	17 GB
	FFM-Llama2-13B	4K	30 GB
	FFM-Llama2-70B	4K	154 GB
FFM-embedding	FFM-embedding-v2.1	8K	2 GB
	FFM-embedding-v2	8K	2 GB
	FFM-embedding	2K	2 GB
FFM-BLOOMZ	FFM-BLOOMZ-7B	4K	20 GB
FFM-BLOOMZ	FFM-BLOOMZ-176B	4K	389 GB

^⁕可提供序列長度128K的版本，GPU記憶體需另外估算