C002|文本嵌入的效果為何在Obsidian中很不理想?

更新於 發佈於 閱讀時間約 1 分鐘

「嵌入 Embedding」這個概念,


是指將「資料 Data」轉換為「向量 Vector」格式的過程。


資料可以是影片的樣本,


可以是音訊的樣本,


可以是圖片的樣本,


可以是文字的樣本。


不同類型的樣本,


可以透過相對應的預訓練神經網路模型,


將資料樣本轉換為「嵌入向量 Embedding Vector」。


嵌入的目的,


是將這些不是數字的資料(影片圖片音訊文字),


轉換成數字的向量,


這樣神經網路就可以處理,


跑各種最優化演算法了!


附帶一提,


在Obsidian裡面有個外掛叫做「Smart Connections [1]」,


可以透過應用「嵌入」的技術,


來幫助你看到你的筆記之間的關係[2]。


我之前有嘗試安裝這個外掛,


實際使用時,


會經過一段很長的時間,


來將我Obsidian庫中的筆記做嵌入。


根據Smart Connections開法者的說明[2],


這個外掛會將我們存放在Obsidian的筆記,


轉化為1536維的向量!


我猜轉為向量後,


大概就是用基本的Euclidean Distance判斷筆記之間的遠近。


在我的使用經驗上,


他找出來的相近的筆記,


相近的都是字面上,


而不是字面下的深刻含義。


這對做筆記其實幫助很有限。


Reference

[1]


[2]


avatar-img
543會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
在UCLA統計與資料科學系擔任博士後研究員, 在2024年7月就滿兩年了。 這兩年托老闆程光教授的福, 有了非常多帶學生的機會,算一算也帶了15個學生。 透過帶學生的經驗, 我也認識到各式各樣的學生各自的優缺點。 許多學生會到我們實驗室找研究實習, 不外乎就
一位復旦大學數學系三年級的學生,在與我第二次見面時,問了一個重要的問題:「你們會收怎麼樣的學生當博士生?」 當時我與這個學生進行了詳細的交流,但一句話來總結,就是「有自己意見,而且有技術底氣的學生」。同時具備這兩個特質的學生,其實相當稀少。 ▋有自己意見 在台大的經驗告訴我,有自己
無論是學術工作者還是生活愛好者, 都能從這篇文章中找到使用Obsidian的好處。 這篇文章將揭示如何有效地管理和利用資訊。 透過實踐, Obsidian已成為我生活與工作中的重要工具。 ▋發現1 - 高效的學術閱讀管理 在學術工作中, 我利用Obsidia
2024年6月11日晚上6點48分於洛杉磯, 我打算開始每天花點時間學習大語言模型的技術部分。 主要使用的教材是 Manning出版的Build a Large Language Model (From Scratch) [1]。 這本書有配套的code,還有詳細的講解,是我信賴的
2024年6月4日, 我在洛杉磯收到了於6月1日在Amazon JP訂購12本書, 加運費竟然只花了178美金,非常划算。 回想自從2017年到美國, 一直都找不到能持續拜訪的好書店。 記得一開始拜訪美國的連鎖書店Barnes & Noble, 對其大量展示的小說
每當我學習新東西,總是感到無比的興奮。相較於買車出遊,我更喜歡透過摸索新事物來擴展自己的眼界。 ▋透過閱讀擴展視野 我主要透過購買書籍來進行探索,這也多虧父母從小到大提供的經濟支持。從幼稚園到博士畢業,我大概購買了四五千冊的書籍。父親甚至在我的房間外搭了一個鐵皮屋,專門用來存放我各式各樣
在UCLA統計與資料科學系擔任博士後研究員, 在2024年7月就滿兩年了。 這兩年托老闆程光教授的福, 有了非常多帶學生的機會,算一算也帶了15個學生。 透過帶學生的經驗, 我也認識到各式各樣的學生各自的優缺點。 許多學生會到我們實驗室找研究實習, 不外乎就
一位復旦大學數學系三年級的學生,在與我第二次見面時,問了一個重要的問題:「你們會收怎麼樣的學生當博士生?」 當時我與這個學生進行了詳細的交流,但一句話來總結,就是「有自己意見,而且有技術底氣的學生」。同時具備這兩個特質的學生,其實相當稀少。 ▋有自己意見 在台大的經驗告訴我,有自己
無論是學術工作者還是生活愛好者, 都能從這篇文章中找到使用Obsidian的好處。 這篇文章將揭示如何有效地管理和利用資訊。 透過實踐, Obsidian已成為我生活與工作中的重要工具。 ▋發現1 - 高效的學術閱讀管理 在學術工作中, 我利用Obsidia
2024年6月11日晚上6點48分於洛杉磯, 我打算開始每天花點時間學習大語言模型的技術部分。 主要使用的教材是 Manning出版的Build a Large Language Model (From Scratch) [1]。 這本書有配套的code,還有詳細的講解,是我信賴的
2024年6月4日, 我在洛杉磯收到了於6月1日在Amazon JP訂購12本書, 加運費竟然只花了178美金,非常划算。 回想自從2017年到美國, 一直都找不到能持續拜訪的好書店。 記得一開始拜訪美國的連鎖書店Barnes & Noble, 對其大量展示的小說
每當我學習新東西,總是感到無比的興奮。相較於買車出遊,我更喜歡透過摸索新事物來擴展自己的眼界。 ▋透過閱讀擴展視野 我主要透過購買書籍來進行探索,這也多虧父母從小到大提供的經濟支持。從幼稚園到博士畢業,我大概購買了四五千冊的書籍。父親甚至在我的房間外搭了一個鐵皮屋,專門用來存放我各式各樣
你可能也想看
Google News 追蹤
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色
Thumbnail
自訂元件生成位置顧名思義就是可以指定部分HTML區塊渲染在特定的畫面上,即使在不同組件也能把A組件內的部分畫面,展現在B組件上,以下方程式舉例。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
當自己習慣於某種特定的論述模式以及文法結構、語言方式
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色
Thumbnail
自訂元件生成位置顧名思義就是可以指定部分HTML區塊渲染在特定的畫面上,即使在不同組件也能把A組件內的部分畫面,展現在B組件上,以下方程式舉例。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
當自己習慣於某種特定的論述模式以及文法結構、語言方式