好笑的語意測試

當我用small int8 的vector來測試consine simiarity時,看到資料呈現,我差點吐血
source_id | original_text | similarity
-----------+---------------------------------------------------------+-------------------
1 | 台灣的半導體產業舉足輕重 | 1
3 | 生成式 AI 正在改變軟體開發流程 | 0.92828518848634
5 | 向量資料庫可用於語意搜尋與 RAG 系統 | 0.919155382805187
6 | 你知道我在等你媽 | 0.917081397725679
7 | 天地君親師 | 0.915928045820945
2 | Vertica is a columnar analytical database | 0.876261310068096
4 | Multilingual embeddings support cross-lingual retrieval | 0.869475130383749
後來我一路從small int8 -> small -> base int8 -> base ->large int8 ->large ->最後回到了small int8
再加了一些東西 , 坦白說,我覺得是資料內容的問題,
source_id | original_text | similarity
-----------+---------------------------------------------------------+-------------------
11 | Agent automates process | 1
3 | 生成式 AI 正在改變軟體開發流程 | 0.933565728593556
14 | dot product | 0.917715256113278
13 | consine similarity | 0.916973660632944
12 | vector search | 0.916443645357875
15 | L2 | 0.912341955412896
8 | 程式設計師失業 | 0.905010159168169
10 | TSMC | 0.904073772722124
5 | 向量資料庫可用於語意搜尋與 RAG 系統 | 0.902930570376776
2 | Vertica is a columnar analytical database | 0.902316084183552
9 | 一人公司 | 0.896786413123839
4 | Multilingual embeddings support cross-lingual retrieval | 0.895653219449955
1 | 台灣的半導體產業舉足輕重 | 0.889161868371196
16 | 向量資料庫 | 0.887021112308544
7 | 天地君親師 | 0.886359233897244
6 | 你知道我在等你媽 | 0.869991297567662
最後發覺, 原來tokenizer 及 dimesion 也要改....我就想說,E5有表現這麼差嗎 ?
source_id | original_text | similarity
-----------+---------------------------------------------------------+-------------------
5 | 向量資料庫可用於語意搜尋與 RAG 系統 | 1
1 | 台灣的半導體產業舉足輕重 | 0.877140785189382
4 | Multilingual embeddings support cross-lingual retrieval | 0.872230208776058
3 | 生成式 AI 正在改變軟體開發流程 | 0.870977866871617
2 | Vertica is a columnar analytical database | 0.853784699525426
7 | 天地君親師 | 0.842314695464149
6 | 你知道我在等你媽 | 0.836804134052917
(7 rows)

路克日誌和其他 1 人喜歡這篇

加入討論

重度AI 使用者

2026/02/24 更新2026/02/24 發佈閱讀 5 分鐘

好笑的語意測試

路克日誌和其他 1 人喜歡這篇

加入討論