拐點 #006 - 有關係就好辦事

更新於 發佈於 閱讀時間約 7 分鐘

大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。

什麼是向量空間模型?

首先,我們需要了解一個基本的數學概念——向量(vector)。想像一下你在一個大地圖上移動,每個位置可以用一組坐標來表示。向量就像從一個點到另一個點的箭頭,告訴你方向和距離。





假設你在一個大城市裡,想從一家咖啡店走到博物館。咖啡店的座標是 (1, 2),博物館的座標是 (4, 6)。向量就像從咖啡店到博物館的一條箭頭,告訴你需要向右走 3 單位,向上走 4 單位。這個箭頭 (3, 4) 就是我們說的向量。

再舉一個例子,想像你在踢足球,從球場的一端將球踢到另一端。假設球門的位置是 (10, 0),你踢球的位置是 (0, 0)。向量就像一個箭頭,從你踢球的位置指向球門,表示你需要把球踢向球門的方向,並且要踢 10 單位的距離。

在語言模型中,向量空間模型是一個多維的坐標系,每個詞語被映射到這個空間中的一個點。這個空間有很多維度,比我們平常的地圖要複雜得多。這些點之間的距離和方向代表了詞語之間的語義關係。語義相近的詞語在向量空間中的距離較近,語義相反或無關的詞語距離較遠。

語義與詞語之間的關係

在向量空間模型中,詞語的意思(語義)不是獨立存在的,而是通過它們與其他詞語的關係來定義。例如,「蘋果」這個詞的意思,不僅僅在於它是某種水果,還在於它經常與「吃」、「水果」、「紅色」等詞語一起出現。模型通過大量的文本數據,學習這些詞語之間的關係,從而理解每個詞的語義。

舉個生活中的例子,想像你在一個新學校裡認識新朋友。你可能會發現,喜歡踢足球的小明,經常和同樣喜歡運動的小華在一起。他們之間的關係和共同愛好讓你更好地了解他們的個性。類似地,大語言模型也是通過詞語之間的共現關係來理解它們的意義。

語義相近的詞語,它們的向量會非常接近,而語義相反或無關的詞語,它們的向量會相對較遠。比如,「汽車」和「車」的向量會很接近,而「汽車」和「蘋果」的向量會相對較遠。

自注意力機制

Transformer架構,是大語言模型(如GPT)背後的核心技術。Transformer利用了一種叫自注意力機制的方法,來分析句子中每個詞語與其他詞語的關係。這種機制允許模型在處理一個詞語時,同時關注句子中所有其他詞語,捕捉到更複雜的語義關係。

例如,考慮句子「小明把書放在桌子上然後離開」。當模型處理「放」這個詞時,它會關注「小明」、「書」和「桌子」這些詞語,理解這個動作涉及到誰、什麼和哪裡。這種關係的理解使得模型能夠準確地把握句子的含義。

以下是一些具體例子來說明這些語義關係以及自注意力機制如何發揮作用。

1. 名詞和修飾語的關係

例句:“那個穿紅色外套的女孩正在公園裡跑步。”

  • “女孩”與“紅色外套”:模型理解“紅色外套”是用來修飾“女孩”的。
  • “女孩”與“跑步”:模型理解“跑步”是“女孩”正在做的動作。
  • “公園”與“跑步”:模型理解“跑步”這個動作發生在“公園”這個地點。

2. 動詞和賓語的關係

例句:“他在廚房裡準備晚餐。”

  • “準備”與“晚餐”:模型理解“準備”這個動作的對象是“晚餐”。
  • “廚房”與“準備”:模型理解“準備晚餐”這個動作發生在“廚房”這個地點。

3. 代詞和前文的關係

例句: “小明拿了一本書,他覺得這本書非常有趣。”

  • “他”與“小明”:模型理解“他”指的是“小明”。
  • “這本書”與“一本書”:模型理解“這本書”指的是前面提到的那本書。

4. 時間和動作的關係

例句:“在吃完晚飯後,他開始做功課。”

  • “吃完晚飯”與“後”:模型理解“後”表示時間的先後順序。
  • “他”與“開始做功課”:模型理解“做功課”是“他”在“吃完晚飯後”開始進行的動作。

5. 比喻和隱喻的理解

例句: “他像獅子一樣勇敢。”

  • “他”與“像獅子”:模型理解這是一個比喻,表示“他”的勇敢。
  • “獅子”與“勇敢”:模型理解“獅子”象徵著“勇敢”。

向量空間的思考鏈 (Chain of Thought)

Chain Of Thought

Chain Of Thought

思考鏈(Chain of Thought, CoT) 是大語言模型在生成文本時的內在過程,它可以理解為模型如何從一個想法鏈接到下一個想法。這個過程在向量空間中進行,每個詞語或短語都是一個向量,模型根據這些向量之間的關係來生成合理且連貫的回應。



假設我們有一段簡單的對話:

  1. 問題:“你今天過得怎麼樣?”
  2. 回答:“我今天去公園散步,感覺很放鬆。”

現在我們來看看這個過程在向量空間中的運作方式。

  1. 初始詞向量
    • 當用戶輸入“你今天過得怎麼樣?”時,模型會將這句話轉換成多個向量,表示每個詞語及其語境。
    • 這些向量進入模型後,模型通過自注意力機制理解整句話的語義。
  2. 關鍵詞向量
    • 模型識別出句子中的關鍵詞,如“今天”、“過得”和“怎麼樣”。這些詞的向量在空間中接近表示日常活動和情感狀態的向量區域。
  3. 相關向量的激活
    • 模型接著在向量空間中搜尋與這些關鍵詞相關的其他詞語向量。比如“今天”可能激活與日常活動相關的向量,如“公園”、“工作”、“朋友”等。
  4. 語義推理
    • 基於這些激活的向量,模型推理出一個合理的回應。比如,“公園”與“散步”相關,“散步”又與“放鬆”相關。因此,模型可能會生成一個包含這些詞語的句子。
  5. 生成回應
    • 模型最終選擇一個語義連貫且符合上下文的回應:“我今天去公園散步,感覺很放鬆。”
    • 這個過程可以視為模型在向量空間中一步步從初始詞向量移動到回應詞向量,形成一條思考鏈。

更複雜的思考鏈

在更複雜的情況下,如回答一個需要多步推理的問題,模型會在向量空間中進行多次迭代,每次都基於當前的上下文向量生成下一步的回應。例如:

  1. 問題:“什麼是量子力學?”
  2. 回應過程
    • 模型首先激活“量子力學”的相關向量區域,包括“物理學”、“粒子”、“波動”、“不確定性”等。
    • 接著,模型可能會搜尋“量子力學”的基本概念向量,如“量子態”、“疊加”、“測量”等。
    • 最後,模型將這些概念組合起來,生成一個連貫的回答:“量子力學是研究微觀粒子行為的物理學分支,涉及到波粒二象性和測量不確定性等概念。”

結語

大語言模型的思考鏈過程可以視為在向量空間中的一系列向量操作。模型通過理解輸入的詞語向量,激活相關的向量,進行語義推理,並生成連貫的回應。

詞語的意義並不是孤立存在的,而是通過它們與其他詞語之間的關係來體現的。大語言模型通過學習大量文本中的這些關係,來理解和生成自然語言。這種在向量空間(vector space)中的「思考」方式,使得大語言模型能夠處理複雜的語言任務,並生成有意義且上下文相關的回應。希望這些例子能幫助你更好地理解大語言模型的思考過程!

---

一個大語言模型的訓練結果要是能夠捕捉到這些語義的關係,那就沒有關係了;但要是捕捉不到這些關係的話,那就有關係了 :)

avatar-img
5會員
240內容數
歡迎來到「Will 進步本」!我們將探索計算機科學、商用英文和生成式AI。從基礎到前沿,共同學習和交流,拓展知識視野,啟發創新思維
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Will 進步本 的其他內容
許多重要的技術,如蒸汽機、電力、半導體和互聯網,都是改變世界的關鍵創新。然而,這些技術在剛出現時,並未立即創造巨大的財富,是由於技術成熟度不足、基礎設施建設需求、生態系統和配套技術的支持、市場接受度、經濟和社會因素以及政策和法規等多方面的原因。
在現今這個信息爆炸的時代,我們如何解讀信息對世界的影響?
人們可能會好奇,一根棒球棒能否藏進人的耳朵裡。這似乎是一個顯而易見的問題,但背後的推理過程是非常值得深入探討的。ChatGPT 是這麼回答的...
5/5拐點
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
5/5拐點
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
5/5拐點
我們對AI的認識往往停留在其自動執行任務和模仿人類思維的層面上。但深入探索後,發現AI真正的價值和獨特之處在於其他方面。
5/5拐點
許多重要的技術,如蒸汽機、電力、半導體和互聯網,都是改變世界的關鍵創新。然而,這些技術在剛出現時,並未立即創造巨大的財富,是由於技術成熟度不足、基礎設施建設需求、生態系統和配套技術的支持、市場接受度、經濟和社會因素以及政策和法規等多方面的原因。
在現今這個信息爆炸的時代,我們如何解讀信息對世界的影響?
人們可能會好奇,一根棒球棒能否藏進人的耳朵裡。這似乎是一個顯而易見的問題,但背後的推理過程是非常值得深入探討的。ChatGPT 是這麼回答的...
5/5拐點
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
5/5拐點
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
5/5拐點
我們對AI的認識往往停留在其自動執行任務和模仿人類思維的層面上。但深入探索後,發現AI真正的價值和獨特之處在於其他方面。
5/5拐點
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
今天聊聊由 Vadim Borisov[1]於2023年發表的文章, 《Language Models are Realistic Tabular Data Generators》[2]。 這篇文章的看點,是提出了GReaT 框架,實現使用「大語言模型 Large Language Mo
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
今天聊聊由 Vadim Borisov[1]於2023年發表的文章, 《Language Models are Realistic Tabular Data Generators》[2]。 這篇文章的看點,是提出了GReaT 框架,實現使用「大語言模型 Large Language Mo
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大