好的教科書就有好的人工智慧-DALL-E3

無限智慧學院

發佈於人工智慧宇宙

更新於 2024/10/25發佈於 2023/10/26閱讀時間約 2 分鐘

Improving Image Generation with Better Captions

https://cdn.openai.com/papers/dall-e-3.pdf

Published by openAI team

前言:

為了提高文字生成影像的品質，openAI 團隊用了三招:

第一招，利用模型將文字"升取樣"，產生出許多描述細節當訓練資料

第二招，用CLIP ViT產生Embeddings，計算Cosine distance

第三招，使用GPT4，對生成結果進行評比。

先來看看放在頭版頁面的生成圖片結果，感受一下DALL-E3的威力!

對細節的極致描述，產生出極致的生成影像結果

無論肖像畫，雜誌封面，卡通，還是風景畫，都難不倒DALL-E3

比較一下文字描述細節帶來的差異:

若要產生與現實有落差的圖片，必須要給予盡可能多的描述，這樣能讓DALL-E3生成正確

使用GPT4取得詳細圖片描述的方法:

先詳細定位GPT4要扮演的角色，目的，從一個初始簡單描述，教材製作者不斷的利用GPT4把內容加進去

使用Cosine distance來衡量生成效果:

把CLIP ViT對ground true 圖片做編碼，然後比對DALLE3生成圖片用同樣CLIP ViT做編碼，兩者的Cosine distance，DALLE3生成的圖片與Ground True越相似，得到的分數越低。

普遍機器學習的學生，相信對於這公式不陌生

使用GPT4來評量生成圖片與文字相不相符:

GPT4 可以拿來當第三方的裁判，判斷其他生成式AI的表現如何

評估結果完勝:

DALL-E3 在Cosine similarity 上面有顯著的增加

引用:

Betker et al. from OpenAI, 2023: DALL-E 3, “Improving Image Generation with Better Captions”, https://cdn.openai.com/papers/dall-e-3.pdf

如果你對 AI 充滿熱情，學習上又不想浪費時間，我能夠以過來人的經驗給你不少想法，歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談，為你直接解惑的，也可以點以下連結預約時間 (1小時)

https://calendly.com/universe_ai/free_appointment

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

留言0

查看全部

發表第一個留言支持創作者！

無限智慧學院的沙龍的其他內容

讓人工智慧取得自我反思的能力-回答正確率大幅提升

作者提出一新框架SELF-RAG，強調了大型語言模型(LMMs)的質量和事實性改進，依據需求自動檢索段落，以反思標記生成和評估內容。SELF-RAG讓LMMs自主決定檢索時機和內容，並使其能評估自身生成。實驗表明SELF-RAG改寫LMMs規則，為自主學習和多任務適應的未來鋪平道路。

#超高效自主學習法 #自我反思 #觀點評論

避免GPT語言模型危害世界，能力越強責任越大

為了避免GPT模型對人類社會造成危害，要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多，無論是訓練資料的取得來源與資料搜集方法，還是模型細節的接露，與產生結果的限制用途與目標客群等等，都是這篇論文關心且要衡量的指標，藉由評分防止發行人工智慧的大科技公司可能造成的社會危害

#防制人工智慧侵害著作權 #提高人工智慧模型透明度 #人工智慧模型碳排放揭露

萬能智慧助理讓您錢多事少-使用Fuyu-8b 模型

訓練一個專屬於自己的守護神有其重要性，可以幫你個性化的解決問題，例如，如果上班常常解讀每個公司的資產負債表，則你可以利用文中的Fuyu-8b model專門的去學習如何看資產負債表，把你手邊有的案例都讓他學習一遍，這樣未來可以解放雙手，輕鬆上班完成任務。

#科技力 #LLM #Transformers

訓練自己的GPT投資顧問，解決投資理財的問題，Finetune Mistral-7B

每天有這麼多的金融數據在變化著，做為一個非全職投資人，要如何同時間掌握這麼多經濟數據與新聞報導，替投資理財做下相對正確的判斷，這時候你會需要自己的投資守護神語言模型，藉由新聞與訊息的整理爬蟲，導入自行訓練的守護神語言模型，讓他每天定時產生社論與投資建議，藉由Email 送出來給您參考，省去你不少時間

#HuggingFace #經濟學家 #Transformers

訓練 OpenAI Whisper V2-幫你的影片上字幕

大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版，可以用來製作屬於自己的自動影片上字幕程式，就讓我們一起來看看吧!

#上字幕 #自動化 #機器人流程自動化

快速取得GPT大模型AI開發的成就

2023年被各大主流媒體稱為AI元年，GPT4 在國際生物奧林匹亞競賽大放異彩，擊敗 99% 的資優生，無人可敵。擁有人工技術，等於擁有世界頂尖員工，24小時不停歇，為你不斷生出結果。然而，多數人對 AI 基本知識仍不明白，知識差距急速擴大，要想不被AI取代，必須懂AI與活用AI。

#人工智慧 #課程 #LLM

讓人工智慧取得自我反思的能力-回答正確率大幅提升

#超高效自主學習法 #自我反思 #觀點評論

避免GPT語言模型危害世界，能力越強責任越大

#防制人工智慧侵害著作權 #提高人工智慧模型透明度 #人工智慧模型碳排放揭露

萬能智慧助理讓您錢多事少-使用Fuyu-8b 模型

#科技力 #LLM #Transformers

訓練自己的GPT投資顧問，解決投資理財的問題，Finetune Mistral-7B

#HuggingFace #經濟學家 #Transformers

訓練 OpenAI Whisper V2-幫你的影片上字幕

大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版，可以用來製作屬於自己的自動影片上字幕程式，就讓我們一起來看看吧!

本篇參與的主題活動

2025臺北國際書展電子紙閱讀器大評比：Pubu、Hyread、Boox、博客來新品搶先看！

每次過完農曆年，麥克最期待的活動就是書展了！麥克這次不惜翻山越嶺披星戴月三顧茅廬七出祁山來到2025年台北國際書展，看看書展現場都有些甚麼酷主機出現。大家趕緊繫上安全帶，麥克要發車啦！

先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板，但拿到辦公室使用後便發現因為時不時有簡報需求，主機本身不支援有線視訊輸出實在是非常不方便，因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6，以下為麥克這一個月下來的使用心得。

#開箱 #平板 #安卓

麥克不學搖滾

2023/12/12

Pubook Pro開箱大揭秘：驚豔的外表，內在卻有點令人非常失望

從預計的十月底出貨經過重重波折，Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場？有達到集資時承諾的各項功能嗎？且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。

#電子紙 #平板 #開箱

瘋人院院長的沙龍

2023/12/10

Steam Deck OLED 開箱評測, 改版規格解析, 推薦買下去指數五顆星

Steam Deck 迎來大改版，最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色，大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時， 3A 大作都可以多玩一小時呢！這麼香的更新，怎麼不給他買下去呢 😄

#Steam #SteamDeck #SteamDeckOLED

麥克不學搖滾

2025/02/06

2025臺北國際書展電子紙閱讀器大評比：Pubu、Hyread、Boox、博客來新品搶先看！

#開箱 #平板 #安卓

Pubook Pro開箱大揭秘：驚豔的外表，內在卻有點令人非常失望

#電子紙 #平板 #開箱

瘋人院院長的沙龍

2023/12/10

Steam Deck OLED 開箱評測, 改版規格解析, 推薦買下去指數五顆星

#Steam #SteamDeck #SteamDeckOLED

你可能也想看

Google News 追蹤

仁和的論文整理

2024/07/05

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型 #視頻 #數據

仁和的論文整理

2024/07/03

AI影像論文(04)：DDPMs (Denoising Diffusion Probabilistic Models)

DDPM是最近備受矚目的影像生成模型，本文探討了DDPM中的擴散與降噪過程，以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除，DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理，請閱讀完整文章。

#模型 #噪音 #擴散

原來可以這樣做沙龍

2024/04/02

Haiper AI 讓你用文字、圖片免費生成高質量影片

Haiper AI 是一款免費的影片生成工具，是由 Google DeepMind 研究人員開發，只只需要輸入文字提示詞，就能生成各種場景的高質量的影片。

#AIGC #AI工具 #AI工具推薦

一二三的沙龍

2024/03/18

探索書籍摘要的新領域：利用人類反饋的OpenAI研究

透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現，也象徵著未來人工智慧與人類知識互動的無限可能性。

現AI時代我們常見的生成影像是如何製作出來的，或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是，早在幾年前純粹用GAN生成技術所產出的人

#生成對抗網路 #LLM #大語言模型