好的教科書就有好的人工智慧-DALL-E3

更新於 發佈於 閱讀時間約 2 分鐘

Improving Image Generation with Better Captions

https://cdn.openai.com/papers/dall-e-3.pdf

Published by openAI team

前言:

為了提高文字生成影像的品質,openAI 團隊用了三招:

第一招,利用模型將文字"升取樣",產生出許多描述細節當訓練資料

第二招,用CLIP ViT產生Embeddings,計算Cosine distance

第三招,使用GPT4,對生成結果進行評比。

先來看看放在頭版頁面的生成圖片結果,感受一下DALL-E3的威力!

對細節的極致描述,產生出極致的生成影像結果

對細節的極致描述,產生出極致的生成影像結果

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

比較一下文字描述細節帶來的差異:

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

使用GPT4取得詳細圖片描述的方法:

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

使用Cosine distance來衡量生成效果:

把CLIP ViT對ground true 圖片做編碼,然後比對DALLE3生成圖片用同樣CLIP ViT做編碼,兩者的Cosine distance,DALLE3生成的圖片與Ground True越相似,得到的分數越低。

普遍機器學習的學生,相信對於這公式不陌生

普遍機器學習的學生,相信對於這公式不陌生

使用GPT4來評量生成圖片與文字相不相符:

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

評估結果完勝:

DALL-E3 在Cosine similarity 上面有顯著的增加

DALL-E3 在Cosine similarity 上面有顯著的增加

引用:


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

 https://calendly.com/universe_ai/free_appointment

avatar-img
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
作者提出一新框架SELF-RAG,強調了大型語言模型(LMMs)的質量和事實性改進,依據需求自動檢索段落,以反思標記生成和評估內容。SELF-RAG讓LMMs自主決定檢索時機和內容,並使其能評估自身生成。實驗表明SELF-RAG改寫LMMs規則,為自主學習和多任務適應的未來鋪平道路。
為了避免GPT模型對人類社會造成危害,要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多,無論是訓練資料的取得來源與資料搜集方法,還是模型細節的接露,與產生結果的限制用途與目標客群等等,都是這篇論文關心且要衡量的指標,藉由評分防止發行人工智慧的大科技公司可能造成的社會危害
訓練一個專屬於自己的守護神有其重要性,可以幫你個性化的解決問題,例如,如果上班常常解讀每個公司的資產負債表,則你可以利用文中的Fuyu-8b model專門的去學習如何看資產負債表,把你手邊有的案例都讓他學習一遍,這樣未來可以解放雙手,輕鬆上班完成任務。
每天有這麼多的金融數據在變化著,做為一個非全職投資人,要如何同時間掌握這麼多經濟數據與新聞報導,替投資理財做下相對正確的判斷,這時候你會需要自己的投資守護神語言模型,藉由新聞與訊息的整理爬蟲,導入自行訓練的守護神語言模型,讓他每天定時產生社論與投資建議,藉由Email 送出來給您參考,省去你不少時間
大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
作者提出一新框架SELF-RAG,強調了大型語言模型(LMMs)的質量和事實性改進,依據需求自動檢索段落,以反思標記生成和評估內容。SELF-RAG讓LMMs自主決定檢索時機和內容,並使其能評估自身生成。實驗表明SELF-RAG改寫LMMs規則,為自主學習和多任務適應的未來鋪平道路。
為了避免GPT模型對人類社會造成危害,要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多,無論是訓練資料的取得來源與資料搜集方法,還是模型細節的接露,與產生結果的限制用途與目標客群等等,都是這篇論文關心且要衡量的指標,藉由評分防止發行人工智慧的大科技公司可能造成的社會危害
訓練一個專屬於自己的守護神有其重要性,可以幫你個性化的解決問題,例如,如果上班常常解讀每個公司的資產負債表,則你可以利用文中的Fuyu-8b model專門的去學習如何看資產負債表,把你手邊有的案例都讓他學習一遍,這樣未來可以解放雙手,輕鬆上班完成任務。
每天有這麼多的金融數據在變化著,做為一個非全職投資人,要如何同時間掌握這麼多經濟數據與新聞報導,替投資理財做下相對正確的判斷,這時候你會需要自己的投資守護神語言模型,藉由新聞與訊息的整理爬蟲,導入自行訓練的守護神語言模型,讓他每天定時產生社論與投資建議,藉由Email 送出來給您參考,省去你不少時間
大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
本篇參與的主題活動
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
可能包含敏感內容
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
這篇要來分享一下學習了一些攝影的知識後,用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片,事實上,很多時候AI生圖的極限是卡在人類使用者的想像力之下。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
可能包含敏感內容
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
這篇要來分享一下學習了一些攝影的知識後,用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片,事實上,很多時候AI生圖的極限是卡在人類使用者的想像力之下。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。