好的教科書就有好的人工智慧-DALL-E3

更新於 2024/10/25閱讀時間約 2 分鐘

Improving Image Generation with Better Captions

https://cdn.openai.com/papers/dall-e-3.pdf

Published by openAI team

前言:

為了提高文字生成影像的品質,openAI 團隊用了三招:

第一招,利用模型將文字"升取樣",產生出許多描述細節當訓練資料

第二招,用CLIP ViT產生Embeddings,計算Cosine distance

第三招,使用GPT4,對生成結果進行評比。

先來看看放在頭版頁面的生成圖片結果,感受一下DALL-E3的威力!

對細節的極致描述,產生出極致的生成影像結果

對細節的極致描述,產生出極致的生成影像結果

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

比較一下文字描述細節帶來的差異:

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

使用GPT4取得詳細圖片描述的方法:

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

使用Cosine distance來衡量生成效果:

把CLIP ViT對ground true 圖片做編碼,然後比對DALLE3生成圖片用同樣CLIP ViT做編碼,兩者的Cosine distance,DALLE3生成的圖片與Ground True越相似,得到的分數越低。

普遍機器學習的學生,相信對於這公式不陌生

普遍機器學習的學生,相信對於這公式不陌生

使用GPT4來評量生成圖片與文字相不相符:

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

評估結果完勝:

DALL-E3 在Cosine similarity 上面有顯著的增加

DALL-E3 在Cosine similarity 上面有顯著的增加

引用:


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

 https://calendly.com/universe_ai/free_appointment

avatar-img
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
作者提出一新框架SELF-RAG,強調了大型語言模型(LMMs)的質量和事實性改進,依據需求自動檢索段落,以反思標記生成和評估內容。SELF-RAG讓LMMs自主決定檢索時機和內容,並使其能評估自身生成。實驗表明SELF-RAG改寫LMMs規則,為自主學習和多任務適應的未來鋪平道路。
為了避免GPT模型對人類社會造成危害,要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多,無論是訓練資料的取得來源與資料搜集方法,還是模型細節的接露,與產生結果的限制用途與目標客群等等,都是這篇論文關心且要衡量的指標,藉由評分防止發行人工智慧的大科技公司可能造成的社會危害
訓練一個專屬於自己的守護神有其重要性,可以幫你個性化的解決問題,例如,如果上班常常解讀每個公司的資產負債表,則你可以利用文中的Fuyu-8b model專門的去學習如何看資產負債表,把你手邊有的案例都讓他學習一遍,這樣未來可以解放雙手,輕鬆上班完成任務。
每天有這麼多的金融數據在變化著,做為一個非全職投資人,要如何同時間掌握這麼多經濟數據與新聞報導,替投資理財做下相對正確的判斷,這時候你會需要自己的投資守護神語言模型,藉由新聞與訊息的整理爬蟲,導入自行訓練的守護神語言模型,讓他每天定時產生社論與投資建議,藉由Email 送出來給您參考,省去你不少時間
大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
作者提出一新框架SELF-RAG,強調了大型語言模型(LMMs)的質量和事實性改進,依據需求自動檢索段落,以反思標記生成和評估內容。SELF-RAG讓LMMs自主決定檢索時機和內容,並使其能評估自身生成。實驗表明SELF-RAG改寫LMMs規則,為自主學習和多任務適應的未來鋪平道路。
為了避免GPT模型對人類社會造成危害,要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多,無論是訓練資料的取得來源與資料搜集方法,還是模型細節的接露,與產生結果的限制用途與目標客群等等,都是這篇論文關心且要衡量的指標,藉由評分防止發行人工智慧的大科技公司可能造成的社會危害
訓練一個專屬於自己的守護神有其重要性,可以幫你個性化的解決問題,例如,如果上班常常解讀每個公司的資產負債表,則你可以利用文中的Fuyu-8b model專門的去學習如何看資產負債表,把你手邊有的案例都讓他學習一遍,這樣未來可以解放雙手,輕鬆上班完成任務。
每天有這麼多的金融數據在變化著,做為一個非全職投資人,要如何同時間掌握這麼多經濟數據與新聞報導,替投資理財做下相對正確的判斷,這時候你會需要自己的投資守護神語言模型,藉由新聞與訊息的整理爬蟲,導入自行訓練的守護神語言模型,讓他每天定時產生社論與投資建議,藉由Email 送出來給您參考,省去你不少時間
大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
本篇參與的主題活動
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
在我自己的經驗中,雖然知道培養能力的重要性,但能力究竟如何培養,我並不是很清楚,反而覺得很抽象。
Thumbnail
姿勢(生活習慣)會影響人的身心健康,以孕婦為例,良好的姿勢能減輕許多因孕期變化造成的不適,這樣的姿勢當然適用於每個人。
一句「好的,再見。」比不上一幕「好的再見」。 無需言語的愛,又該怎麼讓你明白?
Thumbnail
產品的舊定位 比起公司發展20年的 Saas 平台產品,我的資歷實在尚淺,許多舊有產品並非出自我手。但是面對客戶新需求,又得重新包裝舊產品,以符合市場需求。 之前就碰到一個尷尬情況,過往公司服務客戶是小型企業為主,但是逐漸開始接觸大集團。有一次碰到一個棘手的客戶,是國際級的大集團...
Thumbnail
為了提高文字生成影像的品質,openAI 團隊用了三招: 第一招,利用模型將文字"升取樣",產生出許多描述細節 第二招,用CLIP ViT產生Embeddings,計算Cosine similarities 第三招: 使用GPT4,對生成結果進行評比。
Thumbnail
同樣的選舉題材、幾乎是無縫接軌的上線時間,很難不讓人將《人選之人-造浪者》與不久前介紹過的《造后者》拿來比較,尤其在韓劇盛世的年代,許多人對於這部由謝盈萱、戴立忍、陳姸霏、王淨、黃健瑋等人主演的台劇,感到既期待又怕受傷害。然而,相較於《造后者》讓人有點失望的灑狗血劇情,《人選之人-造浪者》倒是令
Thumbnail
这是一本过时的教科书,但同时却也是一本好的生活指南。为什么这位还会活在我们的未来。——关于读《精神分析引論》的笔记。新分区,Dirty Pomelo HighLight Note,DPHN,【见物悟笺】。是我阅读观赏他人作品的笔记。希望大家可以喜欢。
1、註冊地位於香港 由於中文貴金屬市場起步慢,在相關法律、監管機構欠缺的情況下,通常會有不良平臺鑽空子,以炒現貨貴金屬的旗號坑騙投資者。所以好的貴金屬交易平臺應該是怎樣的? 通常資質正規的平臺,其公司註冊地多坐落於香港繁榮地段,這是因為香港是老牌國際金融中心,貴金屬市場早已在當地紮根多年,擁有完善的
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
在我自己的經驗中,雖然知道培養能力的重要性,但能力究竟如何培養,我並不是很清楚,反而覺得很抽象。
Thumbnail
姿勢(生活習慣)會影響人的身心健康,以孕婦為例,良好的姿勢能減輕許多因孕期變化造成的不適,這樣的姿勢當然適用於每個人。
一句「好的,再見。」比不上一幕「好的再見」。 無需言語的愛,又該怎麼讓你明白?
Thumbnail
產品的舊定位 比起公司發展20年的 Saas 平台產品,我的資歷實在尚淺,許多舊有產品並非出自我手。但是面對客戶新需求,又得重新包裝舊產品,以符合市場需求。 之前就碰到一個尷尬情況,過往公司服務客戶是小型企業為主,但是逐漸開始接觸大集團。有一次碰到一個棘手的客戶,是國際級的大集團...
Thumbnail
為了提高文字生成影像的品質,openAI 團隊用了三招: 第一招,利用模型將文字"升取樣",產生出許多描述細節 第二招,用CLIP ViT產生Embeddings,計算Cosine similarities 第三招: 使用GPT4,對生成結果進行評比。
Thumbnail
同樣的選舉題材、幾乎是無縫接軌的上線時間,很難不讓人將《人選之人-造浪者》與不久前介紹過的《造后者》拿來比較,尤其在韓劇盛世的年代,許多人對於這部由謝盈萱、戴立忍、陳姸霏、王淨、黃健瑋等人主演的台劇,感到既期待又怕受傷害。然而,相較於《造后者》讓人有點失望的灑狗血劇情,《人選之人-造浪者》倒是令
Thumbnail
这是一本过时的教科书,但同时却也是一本好的生活指南。为什么这位还会活在我们的未来。——关于读《精神分析引論》的笔记。新分区,Dirty Pomelo HighLight Note,DPHN,【见物悟笺】。是我阅读观赏他人作品的笔记。希望大家可以喜欢。
1、註冊地位於香港 由於中文貴金屬市場起步慢,在相關法律、監管機構欠缺的情況下,通常會有不良平臺鑽空子,以炒現貨貴金屬的旗號坑騙投資者。所以好的貴金屬交易平臺應該是怎樣的? 通常資質正規的平臺,其公司註冊地多坐落於香港繁榮地段,這是因為香港是老牌國際金融中心,貴金屬市場早已在當地紮根多年,擁有完善的