【資料庫寶典】ElasticSearch的Span Near

2023/08/08 更新2023/05/02 發佈閱讀 5 分鐘

想學習Elasticsearch搜尋引擎資料庫的夥伴歡迎參考：

📚 喬叔帶你上手Elastic Stack：Elasticsearch的最佳實踐與最佳化技巧

另外再推薦您一個基礎知識的文章：

📚 分散式搜尋引擎Elastic Search簡介

那這次要介紹的主題主要是在Elasticsearch 搜尋引擎中的跨詞搜尋，你知道詞與詞之間也是存在著距離的嗎？那這些詞可能是相近的，比如說：打、藍球，這兩個詞之間的距離肯定是非常相近的，透過這樣的關係我們可以更加精確的找出我們的資料內容，至於為什麼能夠搜尋的這麼快呢？這得感謝一項重要的技術：

【資料庫寶典】資料檢索技術 — 倒排索引(Inverted Index)

透過這項技術讓我們可以將一整篇文章根據文字內容切碎成詞，以「詞」為單位進行索引，顛覆了以往我們對於資料庫的認識，過往的資料庫系統是以「欄位」為索引進行資料的整理，現如今因應大數據時代的來臨，做了創新的索引技巧，讓我們更能夠精確的找出我們想要的資料。

精華區在這裡...

範例句：

假設我們有一段文章以空白隔開的方式來切割詞彙，內容如下：

為了 提升 滿意度 我們 需要 您 填寫 問卷

假設條件為：

clauses：[提升,滿意度,問卷] 。
slop：4。
in_order： true

❗ 這裡的Slop代表範圍內不匹配的最大數量，從開始匹配的字詞框到最後加總一併進行計算。

查詢結構會是如此

{
    "span_near": {
        "clauses": [
            {
                "span_term": {
                    "dialogs": "提升"
                }
            },
            {
                "span_term": {
                    "dialogs": "滿意度"
                }
            },
            {
                "span_term": {
                    "dialogs": "問卷"
                }
            }
        ],
        "slop": 4,
        "in_order": true
    }
}

請問上述條件是否能正確搜尋出文本？

答案：可以，因為「提升→ 滿意度 → 問卷」之間跨詞數量為4，而我們條件是限定跨詞距離為4，符合搜尋條件，因此可以被正確搜尋。

如果想要正確被搜尋出來只能增加跨詞距離來囊括匹配的範圍，但這個距離要怎麼抓呢？勢必得根據需求以及觀察資料後才能決定這個部份的應用方式了，以上只是說明了Span Near Query的搜尋原理。

結語

原來所謂的跨詞距離就是將文字進行斷詞之後，進行逆向索引，以此為根基進行儲存並記載這個「詞」在哪個文件中的哪個位置，有了這些資訊之後就能夠在搜尋上加上「詞」與「詞」之間多少距離的查詢語法，這樣就能更貼近我們語言的去搜尋資料了，但這仍然不夠，規則還是有點硬邦邦的，更聰明的技術有沒有？

當然有！但在這之前，務必請你閱讀一些關於自然語言處理的文章，累積一些基礎知識，之後再來談談關於Elasticsearch與自然語言之間究竟有什麼關係吧！

關於自然語言處理，也推薦你以下的免費文章進行閱讀：

【自然語言處理 - 概念篇】最基礎的Bag-of-Words模型是什麼呢？
【自然語言處理 - 概念篇】來認識一下詞向量(Word Embedding or Word Vector)吧
【自然語言處理 - 概念篇】探索TF-IDF, 關於詞的統計與索引隱含著什麼奧秘呢？
【自然語言處理 - 概念篇】詞性標注POS在NLP的世界扮演什麼樣的角色呢?
【自然語言處理 - 概念篇】拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?
【自然語言處理 - spaCy】初探強大的工具庫spaCy，讓機器讀懂我們的語言
【自然語言處理 - spaCy】善用ChatGPT幫我們訓練出自訂的Name Entity Recognition實體

#資料庫

#Elasticsearch

阿Han的沙龍阿Han的軟體技術棧 💡資料庫

留言

阿Han的沙龍

153會員

330內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2023/08/08

【資料庫寶典 - MongoDB】基礎介紹

我們在「【資料庫寶典】什麼是NoSQL？能吃嗎？」有談到一些NoSQL的特性，雖然本質上有所差異，但兩方技術發展的產品也都開始互相支援了，比如說MongoDB後來也發展出類SQL語法讓熟悉SQL的開發者可以降低進入門檻，而SQL、postgresql…等也紛紛納入一些NoSQL的元素，雙方都有開始接

2023/08/08

【資料庫寶典 - MongoDB】基礎介紹

2023/05/01

【資料庫寶典 - MongoDB】併發進行Upsert造成重複資料。

通常我們如果希望一筆資料是能夠具備唯一性的狀況下，勢必在新增前會進行檢查，但是在我們的應用程式中，先查詢再寫入勢必會造成一些時間差，導致於多人同時操作時，可能發生重複資料的狀況。假設我們的應用是不允許名稱重複，那我們的資料可能如下：我們的業務邏輯為「當名稱存在時就更新、不存在就新增」

2023/05/01

【資料庫寶典 - MongoDB】併發進行Upsert造成重複資料。

2023/05/01

【資料庫寶典 - MongoDB】關於Mongo的連接池

不論我們使用Nodejs的Mongo Client還是Go語言甚至其他語言的套件，應該都會看到連線選項中有poolSize這類的配置，以下會介紹什麼是連線池、優點、應注意的事項。首先來談談連接池之前的單一連接機制，在配置正確的狀況下可能不會遇到任何問題，但假設我們的應用同時間有100個用戶

2023/05/01

【資料庫寶典 - MongoDB】關於Mongo的連接池

看更多

你可能也想看

k.S的量化投資

【深度解讀】打破百萬門檻迷思：小資族如何透過「債券孳息」打造優於定存的美元現金流？

債券投資，不只是高資產族群的遊戲在傳統的投資觀念中，海外債券（Overseas Bonds）常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻，讓許多想尋求穩定配息的小資族望而卻步。然而，在股市波動劇烈的環境下，尋求穩定的美元現金流與被動收入成為許多投資人

#玉山證券#海外債券#債券孳息

2026/02/06

k.S的量化投資

【深度解讀】打破百萬門檻迷思：小資族如何透過「債券孳息」打造優於定存的美元現金流？

#玉山證券#海外債券#債券孳息

2026/02/06

Jorge2006的沙龍

玉山證券小額債—川普又來報明牌啦!

透過川普的近期債券交易揭露，探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響，以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺，如何讓小資族也能低門檻參與海外債券市場，實現「低門檻、低波動、固定收益」的務實投資方式。

2026/03/13

2026/03/13

拒絕梭哈投資，建立財務餘裕｜玉山證券小額債為你打造資產穩定錨

解析「債券」如何成為資產配置中的穩定錨，提供低風險高回報的投資選項。藉由玉山證券的低門檻債券服務，投資者可輕鬆入手，平衡風險並穩定財務。

#投資#資產配置#債券投資

2026/03/13

CK On Board

拒絕梭哈投資，建立財務餘裕｜玉山證券小額債為你打造資產穩定錨

#投資#資產配置#債券投資

2026/03/13

小芝女看天下

任何人都能投資！用玉山證券小額債替自己存旅費：1,000 美元就能開始的穩健理財法

相較於波動較大的股票，債券能提供固定現金流，而玉山證券推出的小額債，更以1000 美元的低門檻，讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色，大幅降低投資難度，對於希望分散風險、建立穩定現金流的人來說，玉山小額債是一個值得嘗試的理財起點。

#玉山小額債#小額債#玉山證券

2026/02/12