跳至主要内容

FFM-embedding-v2(含 v2.1)、FFM-embedding

Embedding 模型可以將複雜的文本轉換為一組向量,轉換成更容易處理和理解形式的同時,仍保留關鍵信息,有助於進行解析文本​、關鍵字分析​、簡單分類文本內容等任務。​

FFM-embedding 建立知識庫的向量資料集,將每個字詞轉換成數字序列,並定義向量的每個維度對應到的字詞。兩個向量之間的距離可以衡量字詞之間的關係性,距離近表示高度相關,反之則是低相關,使得電腦能夠理解字詞之間的相關程度,幫助模型進行訓練。

FFM-embedding-v2 增強了與 OpenAI API 的兼容性並提升了上下文長度(context window),提供更強的繁中語意處理能力,以及能在繁中語意空間中檢索到更準確的語句。使用者可以透過 API 更靈活地設置參數來強化 embedding 的正確性,以及調整 向量維度(dimension) 設定讓使用者的向量儲存空間的使用率最佳化。

FFM-Embedding-v2.1 為 v2 的強化版本,以繁中法律文本加強訓練,在法律情境的問答語意判斷更精確,且在 MTEB 及 DRCD 中英評測分數皆高於 FFM-embedding-v2。

FFM-embedding 系列均可在 AFS ModelSpace 公用模式與私有模式進行部署。

  • AFS ModelSpace 公用模式操作說明,請參考此文件
  • AFS ModelSpace 私有模式操作說明,請參考此文件