copilot 分析後的結論 :
- Base 在中文語境與跨語言檢索上最穩定,能兼顧聚合與區分。
- Large 未量化 在英文近義詞判斷最強,適合精細的語意區分。
- Small int8 在資源消耗最低的情況下,仍能保持合理的相似度分布,適合快速部署與迭代。
- BGE-M3 在中文語境下聚合力極強,但過度聚合導致失去區分度,不適合需要精準分類的場景。
一開始測試的時候,我還以為中國模型比較厲害
其實從數據看起來,就這個情境來看
E5表現好太多了
但如果真的要商用
還是得微調
從這些數字看起來
模型也不是越大就越厲害
坦白說..我也不會..哈.....
昨天看到hugging face 的課程
好像有一堂就是談fine tune
摸索中....
copilot 分析後的結論 :
- Base 在中文語境與跨語言檢索上最穩定,能兼顧聚合與區分。
- Large 未量化 在英文近義詞判斷最強,適合精細的語意區分。
- Small int8 在資源消耗最低的情況下,仍能保持合理的相似度分布,適合快速部署與迭代。
- BGE-M3 在中文語境下聚合力極強,但過度聚合導致失去區分度,不適合需要精準分類的場景。
一開始測試的時候,我還以為中國模型比較厲害
其實從數據看起來,就這個情境來看
E5表現好太多了
但如果真的要商用
還是得微調
從這些數字看起來
模型也不是越大就越厲害
坦白說..我也不會..哈.....
昨天看到hugging face 的課程
好像有一堂就是談fine tune
摸索中....