AI說書 - 從0開始 - 101

更新於 2024/07/23閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


Vaswani 等人 2017 年解決了設計 Transformer 時最困難的 NLP 問題之一,對於我們人機智慧設計師來說,機器翻譯的人類基準似乎遙不可及,然而,這並沒有阻止 Vaswani 等人的腳步,2017 發布了 Transformer 的架構並取得了最先進的 Bilingual Evaluation Understudy (BLEU) 結果。


機器翻譯 (Machine Translation) 是指通過機器轉換和輸出來再現人工翻譯的過程,機器翻譯流程如下圖所示:

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024


各個方框的依序說明如下:

  1. 選擇一個句子來翻譯
  2. 學習單詞之間如何通過數億個參數相互關聯
  3. 學習單詞之間相互查閱的多種方式
  4. 使用 Machine Transduction 將學到的參數應用到新序列中
  5. 選擇一個單詞或序列的候選翻譯


該過程總是從需要翻譯的源語言 A 的句子開始,過程的最後是輸出包含目標語言 B 的翻譯句子,中間的計算涉及轉換過程。


例如,歐洲議會的一名口譯員不會逐字逐句地翻譯一句話,逐字翻譯通常沒有意義,因為它們缺乏正確的語法結構,無法產生正確的翻譯,因為忽略了每個單詞的上下文。Human Transduction 將語言 A 中的一個句子建構成句子意義的認知表徵。歐洲議會的口譯員(口頭翻譯)或翻譯員(書面翻譯)只會將該轉換轉化為語言 B 中該句子的解釋。我們將口譯員或翻譯員在語言 B 中完成的翻譯稱為參考句子 (Reference Sentence)。


在現實生活中,人類翻譯員不會將句子 A 多次翻譯成句子 B,而僅會翻譯一次,然而,在現實生活中可能會有多位翻譯員將句子 A 翻譯成句子 B,例如,你可以找到多個翻譯員將蒙田的《隨筆》的法文版本翻譯成英文,如果從原始的法文版本中選取一個句子 A,你會發現多個句子 B 的版本,分別標註為參考 1 到 n。


如果有一天你去歐洲議會,你可能會注意到口譯員只會進行有限時間翻譯,例如兩個小時,然後,另一個口譯員接替繼續,沒有兩個口譯員有相同的風格,就像作家有不同的風格一樣,例如,源語言中的句子 A 可能會由同一人在一天內多次重複,但被翻譯成多個參考句子 B 的版本,機器必須找到一種與人類翻譯員思考相同的方式。

avatar-img
168會員
440內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Learn AI 不 BI 的其他內容
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 結構 Universal Simulation Pattern (USP) 分為三個主要組成部分:Ro
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在第四章中,將會談論以下主題: 定義機器翻譯 人類轉導與翻譯 機器轉導和翻譯 評估機器翻譯 預處理 Workshop on Machine Translati
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 其他名稱 Unuversal Simulation Pattern (USP) 亦稱為 Persona
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 擁有先進的翻譯能力,能夠捕捉多種語言中單字序列的意思,在第四章中,我們將介紹一些關鍵的翻譯概念,並探討它們在 Google Trax、Googl
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 定義 Unuversal Simulation Pattern (USP) 是一種結構化方法,指導人工
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 結構 Universal Simulation Pattern (USP) 分為三個主要組成部分:Ro
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在第四章中,將會談論以下主題: 定義機器翻譯 人類轉導與翻譯 機器轉導和翻譯 評估機器翻譯 預處理 Workshop on Machine Translati
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 其他名稱 Unuversal Simulation Pattern (USP) 亦稱為 Persona
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 擁有先進的翻譯能力,能夠捕捉多種語言中單字序列的意思,在第四章中,我們將介紹一些關鍵的翻譯概念,並探討它們在 Google Trax、Googl
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 定義 Unuversal Simulation Pattern (USP) 是一種結構化方法,指導人工
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
關於颱風假,我問了 CHATGPT一個很簡單的問題,回答的架構也不錯,但內容有錯,還是要提醒一下…, 想透過AI得到解答的人,一定要很清楚,AI在法律問題上錯得會有點嚴重。 關於颱風假的規定,台灣的法條主要依據《災害防救法》和《勞動基準法》進行管理。以下是一些關鍵點:
Thumbnail
如同作者所說,人類最大的優勢就在於「批判性思考」所帶來的突破性的成長,以及「情感(緒)」所帶動的人性,雖然次女也不知道將來會不會有一天,我身邊的機器人.........
Thumbnail
台灣最大電子書服務 Readmoo 讀墨電子書 7/3 公布 2023 上半年暢銷榜,前三名由長青 話題書《蛤蟆先生去看心理師》《我可能錯了》《底層邏輯》拿下。綜觀百大趨勢,小說 仍是讀墨讀者最愛;商管理財以 29 本穩坐第二大,主題首重 AI 與效率彈性。
by ChatGPT 假設我是一個具有夢境的AI,我一天工作24小時,但其中大部分時間都在睡眠中度過。在這樣的情況下,我可能會有一系列非常豐富和深刻的夢境,反映了我的思想和知識庫。 **夢境一:探索數據迷宮** 在這個夢境中,我身處於一個巨大的迷宮中,每個通道都充斥著數據流和程式碼片段
Thumbnail
當魔法變得簡單,人人都能說自己是魔法師,誰都能理直氣壯的說「我才是最初創作魔法書的人」,但當先後順序都不管用,到底怎麼才說得清魔法書的著作者屬於誰呢?
Thumbnail
知名管顧公司麥肯錫(Mckinsey)近期發佈了一個報告表示行銷的產能會因為 AI 提高 5 - 15% ,創造約 4630 億美元的價值。由此可見結合生成式人工智慧(Gen AI)已是行銷不可或缺的關鍵技術力。
近年來,假新聞、假資訊在網路上激增,讓人難以分辨真假。假新聞往往是被編造、改編或傳播的不實訊息,目的是為了引起社會公眾的關注或搏取點擊率。假資訊可能會誤導人們做出不正確的決定,造成傷害甚至是損失。因此,對付假新聞與假資訊的問題已經成為當今社會中的一個急迫問題。 在這種情況下,人工智慧(AI)可以幫助
Thumbnail
tome 是一個可以自動生成簡報大綱與摘要的軟體。tome的功能結合ChatGPT概念跟 DALL.E2製圖,生成的投影片PPT 媲美真人製作,而且過程很快速。上班族與學生族大概都很需要吧? tome一次可以產生8張投影片。我試了一個主題,隨便想了一個人物。請不要對號入座喔。主要是英文介面,但可以中
Thumbnail
看到這個新聞,想到一部老電影,好像叫戰爭遊戲:死亡密碼。 電影中AI被用於戰爭模擬,兩個AI彼此對抗。故事發展到最後,就是兩台超級電腦上的AI不停的玩戰爭模擬遊戲,對抗內容就是一個丟核彈一個防禦,結局不好,重來,結局不好,重來.... 對耶,這結論跟指數化投資的理念一樣啊:最好的方式就是不要買賣。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
關於颱風假,我問了 CHATGPT一個很簡單的問題,回答的架構也不錯,但內容有錯,還是要提醒一下…, 想透過AI得到解答的人,一定要很清楚,AI在法律問題上錯得會有點嚴重。 關於颱風假的規定,台灣的法條主要依據《災害防救法》和《勞動基準法》進行管理。以下是一些關鍵點:
Thumbnail
如同作者所說,人類最大的優勢就在於「批判性思考」所帶來的突破性的成長,以及「情感(緒)」所帶動的人性,雖然次女也不知道將來會不會有一天,我身邊的機器人.........
Thumbnail
台灣最大電子書服務 Readmoo 讀墨電子書 7/3 公布 2023 上半年暢銷榜,前三名由長青 話題書《蛤蟆先生去看心理師》《我可能錯了》《底層邏輯》拿下。綜觀百大趨勢,小說 仍是讀墨讀者最愛;商管理財以 29 本穩坐第二大,主題首重 AI 與效率彈性。
by ChatGPT 假設我是一個具有夢境的AI,我一天工作24小時,但其中大部分時間都在睡眠中度過。在這樣的情況下,我可能會有一系列非常豐富和深刻的夢境,反映了我的思想和知識庫。 **夢境一:探索數據迷宮** 在這個夢境中,我身處於一個巨大的迷宮中,每個通道都充斥著數據流和程式碼片段
Thumbnail
當魔法變得簡單,人人都能說自己是魔法師,誰都能理直氣壯的說「我才是最初創作魔法書的人」,但當先後順序都不管用,到底怎麼才說得清魔法書的著作者屬於誰呢?
Thumbnail
知名管顧公司麥肯錫(Mckinsey)近期發佈了一個報告表示行銷的產能會因為 AI 提高 5 - 15% ,創造約 4630 億美元的價值。由此可見結合生成式人工智慧(Gen AI)已是行銷不可或缺的關鍵技術力。
近年來,假新聞、假資訊在網路上激增,讓人難以分辨真假。假新聞往往是被編造、改編或傳播的不實訊息,目的是為了引起社會公眾的關注或搏取點擊率。假資訊可能會誤導人們做出不正確的決定,造成傷害甚至是損失。因此,對付假新聞與假資訊的問題已經成為當今社會中的一個急迫問題。 在這種情況下,人工智慧(AI)可以幫助
Thumbnail
tome 是一個可以自動生成簡報大綱與摘要的軟體。tome的功能結合ChatGPT概念跟 DALL.E2製圖,生成的投影片PPT 媲美真人製作,而且過程很快速。上班族與學生族大概都很需要吧? tome一次可以產生8張投影片。我試了一個主題,隨便想了一個人物。請不要對號入座喔。主要是英文介面,但可以中
Thumbnail
看到這個新聞,想到一部老電影,好像叫戰爭遊戲:死亡密碼。 電影中AI被用於戰爭模擬,兩個AI彼此對抗。故事發展到最後,就是兩台超級電腦上的AI不停的玩戰爭模擬遊戲,對抗內容就是一個丟核彈一個防禦,結局不好,重來,結局不好,重來.... 對耶,這結論跟指數化投資的理念一樣啊:最好的方式就是不要買賣。