無限智慧學院的沙龍

人工智慧宇宙

13免費公開

25付費限定

定期分享一些新的人工智慧技術，藉由人工智慧python程式碼的實做應用探索，帶大家一起體會人工智慧理論面的奧妙，與應用面龐大的機會

全部類型

免費與付費

最新發佈

最新發佈

無限智慧學院

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

#MAGVIT #MAGVITv2 #MASKLM

無限智慧學院

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

#MAGVIT #MAGVITv2 #MASKLM

無限智慧學院

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

#天氣預測模型 #人工智慧預測天氣 #GraphCast

無限智慧學院

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

#天氣預測模型 #人工智慧預測天氣 #GraphCast

無限智慧學院

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

#NeRF #緊湊型神經網路壓縮 #Nvidia

無限智慧學院

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

#NeRF #緊湊型神經網路壓縮 #Nvidia

無限智慧學院

2024/02/04

隨心所欲的生成短影音，Zero-Shot VideoPoet by Google Research

Google Research 在2024年給出了令人滿意的新年禮物，這篇論文內的方法，若持續發展下去，可望顛覆整個影音創作產業，未來製作生動的影音動畫，不再是令人頭痛與耗費心力的一件事情，是不是很酷，讓我們一起看看到底是如何做到的。

#GoogleResearch #文圖音生短影音 #VideoPoet

無限智慧學院

2024/02/04

隨心所欲的生成短影音，Zero-Shot VideoPoet by Google Research

Google Research 在2024年給出了令人滿意的新年禮物，這篇論文內的方法，若持續發展下去，可望顛覆整個影音創作產業，未來製作生動的影音動畫，不再是令人頭痛與耗費心力的一件事情，是不是很酷，讓我們一起看看到底是如何做到的。

#GoogleResearch #文圖音生短影音 #VideoPoet

無限智慧學院

2024/01/19

一起探索文生語音的奧術，OpenVoice 開源MyShell.ai後臺模型

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成，這聽起來很不可思議對吧? 但這就是本篇論文取得的成就，不僅如此，該有的功能，如調整情感，口音節奏，停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文，這會是很有趣的旅程。

#AI論文詳解 #OpenVoice #MyshellAI

無限智慧學院

2024/01/19

一起探索文生語音的奧術，OpenVoice 開源MyShell.ai後臺模型

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成，這聽起來很不可思議對吧? 但這就是本篇論文取得的成就，不僅如此，該有的功能，如調整情感，口音節奏，停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文，這會是很有趣的旅程。

#AI論文詳解 #OpenVoice #MyshellAI

無限智慧學院

2024/01/08

用一張圖片生成多視角3D，LRM by Hong et al.

Transformer被廣泛運用在各種生成式AI，激起了本篇作者的好奇心，是否能用Transformer學到所有先驗知識，足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式，讓有興趣的人可以深入研究。

#openLRM #Transformer #ViT

無限智慧學院

2024/01/08

用一張圖片生成多視角3D，LRM by Hong et al.

Transformer被廣泛運用在各種生成式AI，激起了本篇作者的好奇心，是否能用Transformer學到所有先驗知識，足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式，讓有興趣的人可以深入研究。

#openLRM #Transformer #ViT

無限智慧學院

2023/12/31

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

#IPAdapter #DiffusionModel #圖文生圖

無限智慧學院

2023/12/31

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

#IPAdapter #DiffusionModel #圖文生圖

無限智慧學院

2023/12/26

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀，抽取其中的核心概念，試圖打開技術的神秘面紗。

#Mixtral8x7b #SMOE #SparseMOE

無限智慧學院

2023/12/26

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀，抽取其中的核心概念，試圖打開技術的神秘面紗。

#Mixtral8x7b #SMOE #SparseMOE

無限智慧學院

2023/12/20

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力，近期提出了更加高效率的對抗生成蒸餾方法，只需進行一步計算，便能打敗LCM需要4步計算的結果，來看看具體是如何做到的。

#對抗生成模型 #對抗生成蒸餾 #StabilityAI

無限智慧學院

2023/12/20

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力，近期提出了更加高效率的對抗生成蒸餾方法，只需進行一步計算，便能打敗LCM需要4步計算的結果，來看看具體是如何做到的。

#對抗生成模型 #對抗生成蒸餾 #StabilityAI

無限智慧學院

2023/12/12

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba #FlashAttention #SSMs

無限智慧學院

2023/12/12

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba #FlashAttention #SSMs

無限智慧學院

2023/11/30

奢華與平價教材一起拿來學，C-RLFT，Openchat's tricks for finetune

Starling-LM-7B近來火燙，有使用到本篇的C-RLFT技術，基於此基礎上可以把7B小模型的微調成績做到頂尖，一起來理解OpenChat 的 C-RLFT技術是如何實現的，所能產生的效果為何，以及探索為何能達到這樣好的成績。

#AI論文詳解 #CRLFT #ConditionedRL

無限智慧學院

2023/11/30

奢華與平價教材一起拿來學，C-RLFT，Openchat's tricks for finetune

Starling-LM-7B近來火燙，有使用到本篇的C-RLFT技術，基於此基礎上可以把7B小模型的微調成績做到頂尖，一起來理解OpenChat 的 C-RLFT技術是如何實現的，所能產生的效果為何，以及探索為何能達到這樣好的成績。

#AI論文詳解 #CRLFT #ConditionedRL

無限智慧學院

2023/11/27

訓練小模型進行逐步推導，Orca-2-7B/13B

微軟爸爸發論文教大家如何訓練與評估model，有完整的訓練思路與評估方法，雖然本篇沒有任何Fine-tune的手法，比較不接地氣，但是仍然可以當成一個好的參考範例，可以從中學到許多評估模型的角度與關鍵指標，改天會進行總結整理。

#Orca2 #逐步推導 #LLM小模型研究

無限智慧學院

2023/11/27

訓練小模型進行逐步推導，Orca-2-7B/13B

微軟爸爸發論文教大家如何訓練與評估model，有完整的訓練思路與評估方法，雖然本篇沒有任何Fine-tune的手法，比較不接地氣，但是仍然可以當成一個好的參考範例，可以從中學到許多評估模型的角度與關鍵指標，改天會進行總結整理。

#Orca2 #逐步推導 #LLM小模型研究

無限智慧學院

2023/11/26

即時生圖應用大行其道，LCM手法理解與未來應用

北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法，讓SD這項技術，可以在筆電達到即時(Real Time)運算等級，讓我們一起來了解這項技術，期許未來能在各種應用上使用，或是看到源碼也不陌生。

#LCM #北京清華大學 #文字生圖片

無限智慧學院

2023/11/26

即時生圖應用大行其道，LCM手法理解與未來應用

北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法，讓SD這項技術，可以在筆電達到即時(Real Time)運算等級，讓我們一起來了解這項技術，期許未來能在各種應用上使用，或是看到源碼也不陌生。

#LCM #北京清華大學 #文字生圖片

無限智慧學院

2023/11/09

生成模型是不斷的宇宙大爆炸與熱寂循環，讀YaRN悟道

相信大家要能完全理解ROPE編碼與YaRN插值手法，需要較長的時間，導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理，旋轉位置編碼，最早的形式出現在古代中國易經，繞完一整圈表示一個階段的結束，預示下一個階段的開始。

#YaRN #ROPE #PositionalEncoding

無限智慧學院

2023/11/09

生成模型是不斷的宇宙大爆炸與熱寂循環，讀YaRN悟道

相信大家要能完全理解ROPE編碼與YaRN插值手法，需要較長的時間，導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理，旋轉位置編碼，最早的形式出現在古代中國易經，繞完一整圈表示一個階段的結束，預示下一個階段的開始。

#YaRN #ROPE #PositionalEncoding

無限智慧學院

2023/11/08

讓Mistral 7B搞定長序列128K (e.g.雜誌)，使用YaRN插值改良手法

本篇精選熱點論文，基於ROPE(Rotary Position Embeddings)改善插值方式，讓模型可以在短序列(4K Tokens)進行訓練，接著在長序列(128K Tokens)僅做少數微調，甚至無須微調，就能達到泛化到極長輸入序列的能力，模型可以吞下一整本雜誌，輸出困惑度表現也能夠維持!

#positionEmbedding #YARN #論文講解

無限智慧學院

2023/11/08

讓Mistral 7B搞定長序列128K (e.g.雜誌)，使用YaRN插值改良手法

本篇精選熱點論文，基於ROPE(Rotary Position Embeddings)改善插值方式，讓模型可以在短序列(4K Tokens)進行訓練，接著在長序列(128K Tokens)僅做少數微調，甚至無須微調，就能達到泛化到極長輸入序列的能力，模型可以吞下一整本雜誌，輸出困惑度表現也能夠維持!

#positionEmbedding #YARN #論文講解

無限智慧學院

2023/10/29

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力 #Mistral #GPT-4

無限智慧學院

2023/10/29

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力 #Mistral #GPT-4

全部類型

免費與付費

最新發佈

最新發佈

無限智慧學院

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

#MAGVIT #MAGVITv2 #MASKLM

無限智慧學院

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

#MAGVIT #MAGVITv2 #MASKLM

無限智慧學院

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

#天氣預測模型 #人工智慧預測天氣 #GraphCast

無限智慧學院

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

#天氣預測模型 #人工智慧預測天氣 #GraphCast

無限智慧學院

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

#NeRF #緊湊型神經網路壓縮 #Nvidia

無限智慧學院

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

#NeRF #緊湊型神經網路壓縮 #Nvidia

無限智慧學院

2024/02/04

隨心所欲的生成短影音，Zero-Shot VideoPoet by Google Research

Google Research 在2024年給出了令人滿意的新年禮物，這篇論文內的方法，若持續發展下去，可望顛覆整個影音創作產業，未來製作生動的影音動畫，不再是令人頭痛與耗費心力的一件事情，是不是很酷，讓我們一起看看到底是如何做到的。

#GoogleResearch #文圖音生短影音 #VideoPoet

無限智慧學院

2024/02/04

隨心所欲的生成短影音，Zero-Shot VideoPoet by Google Research

Google Research 在2024年給出了令人滿意的新年禮物，這篇論文內的方法，若持續發展下去，可望顛覆整個影音創作產業，未來製作生動的影音動畫，不再是令人頭痛與耗費心力的一件事情，是不是很酷，讓我們一起看看到底是如何做到的。

#GoogleResearch #文圖音生短影音 #VideoPoet

無限智慧學院

2024/01/19

一起探索文生語音的奧術，OpenVoice 開源MyShell.ai後臺模型

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成，這聽起來很不可思議對吧? 但這就是本篇論文取得的成就，不僅如此，該有的功能，如調整情感，口音節奏，停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文，這會是很有趣的旅程。

#AI論文詳解 #OpenVoice #MyshellAI

無限智慧學院

2024/01/19

一起探索文生語音的奧術，OpenVoice 開源MyShell.ai後臺模型

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成，這聽起來很不可思議對吧? 但這就是本篇論文取得的成就，不僅如此，該有的功能，如調整情感，口音節奏，停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文，這會是很有趣的旅程。

#AI論文詳解 #OpenVoice #MyshellAI

無限智慧學院

2024/01/08

用一張圖片生成多視角3D，LRM by Hong et al.

Transformer被廣泛運用在各種生成式AI，激起了本篇作者的好奇心，是否能用Transformer學到所有先驗知識，足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式，讓有興趣的人可以深入研究。

#openLRM #Transformer #ViT

無限智慧學院

2024/01/08

用一張圖片生成多視角3D，LRM by Hong et al.

Transformer被廣泛運用在各種生成式AI，激起了本篇作者的好奇心，是否能用Transformer學到所有先驗知識，足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式，讓有興趣的人可以深入研究。

#openLRM #Transformer #ViT

無限智慧學院

2023/12/31

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

#IPAdapter #DiffusionModel #圖文生圖

無限智慧學院

2023/12/31

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

#IPAdapter #DiffusionModel #圖文生圖

無限智慧學院

2023/12/26

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀，抽取其中的核心概念，試圖打開技術的神秘面紗。

#Mixtral8x7b #SMOE #SparseMOE

無限智慧學院

2023/12/26

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀，抽取其中的核心概念，試圖打開技術的神秘面紗。

#Mixtral8x7b #SMOE #SparseMOE

無限智慧學院

2023/12/20

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力，近期提出了更加高效率的對抗生成蒸餾方法，只需進行一步計算，便能打敗LCM需要4步計算的結果，來看看具體是如何做到的。

#對抗生成模型 #對抗生成蒸餾 #StabilityAI

無限智慧學院

2023/12/20

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力，近期提出了更加高效率的對抗生成蒸餾方法，只需進行一步計算，便能打敗LCM需要4步計算的結果，來看看具體是如何做到的。

#對抗生成模型 #對抗生成蒸餾 #StabilityAI

無限智慧學院

2023/12/12

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba #FlashAttention #SSMs

無限智慧學院

2023/12/12

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba #FlashAttention #SSMs

無限智慧學院

2023/11/30

奢華與平價教材一起拿來學，C-RLFT，Openchat's tricks for finetune

Starling-LM-7B近來火燙，有使用到本篇的C-RLFT技術，基於此基礎上可以把7B小模型的微調成績做到頂尖，一起來理解OpenChat 的 C-RLFT技術是如何實現的，所能產生的效果為何，以及探索為何能達到這樣好的成績。

#AI論文詳解 #CRLFT #ConditionedRL

無限智慧學院

2023/11/30

奢華與平價教材一起拿來學，C-RLFT，Openchat's tricks for finetune

Starling-LM-7B近來火燙，有使用到本篇的C-RLFT技術，基於此基礎上可以把7B小模型的微調成績做到頂尖，一起來理解OpenChat 的 C-RLFT技術是如何實現的，所能產生的效果為何，以及探索為何能達到這樣好的成績。

#AI論文詳解 #CRLFT #ConditionedRL

無限智慧學院

2023/11/27

訓練小模型進行逐步推導，Orca-2-7B/13B

微軟爸爸發論文教大家如何訓練與評估model，有完整的訓練思路與評估方法，雖然本篇沒有任何Fine-tune的手法，比較不接地氣，但是仍然可以當成一個好的參考範例，可以從中學到許多評估模型的角度與關鍵指標，改天會進行總結整理。

#Orca2 #逐步推導 #LLM小模型研究

無限智慧學院

2023/11/27

訓練小模型進行逐步推導，Orca-2-7B/13B

微軟爸爸發論文教大家如何訓練與評估model，有完整的訓練思路與評估方法，雖然本篇沒有任何Fine-tune的手法，比較不接地氣，但是仍然可以當成一個好的參考範例，可以從中學到許多評估模型的角度與關鍵指標，改天會進行總結整理。

#Orca2 #逐步推導 #LLM小模型研究

無限智慧學院

2023/11/26

即時生圖應用大行其道，LCM手法理解與未來應用

北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法，讓SD這項技術，可以在筆電達到即時(Real Time)運算等級，讓我們一起來了解這項技術，期許未來能在各種應用上使用，或是看到源碼也不陌生。

#LCM #北京清華大學 #文字生圖片

無限智慧學院

2023/11/26

即時生圖應用大行其道，LCM手法理解與未來應用

北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法，讓SD這項技術，可以在筆電達到即時(Real Time)運算等級，讓我們一起來了解這項技術，期許未來能在各種應用上使用，或是看到源碼也不陌生。

#LCM #北京清華大學 #文字生圖片

無限智慧學院

2023/11/09

生成模型是不斷的宇宙大爆炸與熱寂循環，讀YaRN悟道

相信大家要能完全理解ROPE編碼與YaRN插值手法，需要較長的時間，導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理，旋轉位置編碼，最早的形式出現在古代中國易經，繞完一整圈表示一個階段的結束，預示下一個階段的開始。

#YaRN #ROPE #PositionalEncoding

無限智慧學院

2023/11/09

生成模型是不斷的宇宙大爆炸與熱寂循環，讀YaRN悟道

相信大家要能完全理解ROPE編碼與YaRN插值手法，需要較長的時間，導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理，旋轉位置編碼，最早的形式出現在古代中國易經，繞完一整圈表示一個階段的結束，預示下一個階段的開始。

#YaRN #ROPE #PositionalEncoding

無限智慧學院

2023/11/08

讓Mistral 7B搞定長序列128K (e.g.雜誌)，使用YaRN插值改良手法

本篇精選熱點論文，基於ROPE(Rotary Position Embeddings)改善插值方式，讓模型可以在短序列(4K Tokens)進行訓練，接著在長序列(128K Tokens)僅做少數微調，甚至無須微調，就能達到泛化到極長輸入序列的能力，模型可以吞下一整本雜誌，輸出困惑度表現也能夠維持!

#positionEmbedding #YARN #論文講解

無限智慧學院

2023/11/08

讓Mistral 7B搞定長序列128K (e.g.雜誌)，使用YaRN插值改良手法

本篇精選熱點論文，基於ROPE(Rotary Position Embeddings)改善插值方式，讓模型可以在短序列(4K Tokens)進行訓練，接著在長序列(128K Tokens)僅做少數微調，甚至無須微調，就能達到泛化到極長輸入序列的能力，模型可以吞下一整本雜誌，輸出困惑度表現也能夠維持!

#positionEmbedding #YARN #論文講解

無限智慧學院

2023/10/29

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力 #Mistral #GPT-4

無限智慧學院

2023/10/29

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力 #Mistral #GPT-4