好的教科書就有好的人工智慧-DALL-E3

更新 發佈閱讀 2 分鐘

Improving Image Generation with Better Captions

https://cdn.openai.com/papers/dall-e-3.pdf

Published by openAI team

前言:

為了提高文字生成影像的品質,openAI 團隊用了三招:

第一招,利用模型將文字"升取樣",產生出許多描述細節當訓練資料

第二招,用CLIP ViT產生Embeddings,計算Cosine distance

第三招,使用GPT4,對生成結果進行評比。

先來看看放在頭版頁面的生成圖片結果,感受一下DALL-E3的威力!

對細節的極致描述,產生出極致的生成影像結果

對細節的極致描述,產生出極致的生成影像結果

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

比較一下文字描述細節帶來的差異:

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

使用GPT4取得詳細圖片描述的方法:

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

使用Cosine distance來衡量生成效果:

把CLIP ViT對ground true 圖片做編碼,然後比對DALLE3生成圖片用同樣CLIP ViT做編碼,兩者的Cosine distance,DALLE3生成的圖片與Ground True越相似,得到的分數越低。

普遍機器學習的學生,相信對於這公式不陌生

普遍機器學習的學生,相信對於這公式不陌生

使用GPT4來評量生成圖片與文字相不相符:

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

評估結果完勝:

DALL-E3 在Cosine similarity 上面有顯著的增加

DALL-E3 在Cosine similarity 上面有顯著的增加

引用:


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

 https://calendly.com/universe_ai/free_appointment

留言
avatar-img
無限智慧學院的沙龍
97會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2024/06/13
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
2024/06/13
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
2024/06/09
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
Thumbnail
2024/06/09
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
看更多
你可能也想看
Thumbnail
我看很多人都比較在意用GPT產生一些高品質圖片 但是使用DALLE3總是會有一些版權限制 網路上的解決方案都很差 無法產生完整一樣的圖片 其實這些都是一個簡單的思路轉換可以搞定的 我還是強烈建議大家在使用AI的過程中 千萬不要被自己的思想限制了 解決問題的創造力是我們在AI時代唯一最寶
Thumbnail
我看很多人都比較在意用GPT產生一些高品質圖片 但是使用DALLE3總是會有一些版權限制 網路上的解決方案都很差 無法產生完整一樣的圖片 其實這些都是一個簡單的思路轉換可以搞定的 我還是強烈建議大家在使用AI的過程中 千萬不要被自己的思想限制了 解決問題的創造力是我們在AI時代唯一最寶
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。 目前在微軟的bing與chatGPT Plus中都可以試用DALL·E 3,這篇文章除了簡介DALL·E 3的進步與特性之外,也比較在bing與chatGPT Plus這兩個平台中使用DALL·E 3有何不同?有
Thumbnail
DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。 目前在微軟的bing與chatGPT Plus中都可以試用DALL·E 3,這篇文章除了簡介DALL·E 3的進步與特性之外,也比較在bing與chatGPT Plus這兩個平台中使用DALL·E 3有何不同?有
Thumbnail
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
操作很簡單 使用電腦 開啟GPT-4,選擇DALLE.3 複製這段指令進去 注意:這條指令只針對chatgpt 的PLUS會員,同時已經可以使用DALLE.3的使用者。 ##圖片提示字產生器 版本:v0.11 作者:秒懂AI提問指令 {任務}你將扮演圖片提示詞產生器,當我提供簡短{主
Thumbnail
操作很簡單 使用電腦 開啟GPT-4,選擇DALLE.3 複製這段指令進去 注意:這條指令只針對chatgpt 的PLUS會員,同時已經可以使用DALLE.3的使用者。 ##圖片提示字產生器 版本:v0.11 作者:秒懂AI提問指令 {任務}你將扮演圖片提示詞產生器,當我提供簡短{主
Thumbnail
在某次chatgpt 4更新後(Chatgpt 4需要付費才能使用) chatgpt新增了AI繪圖的功能(使用DALL-E方式生成) 🥳🥳🥳 但是我自己是用一段時間後,發現到一些疑點和心得:
Thumbnail
在某次chatgpt 4更新後(Chatgpt 4需要付費才能使用) chatgpt新增了AI繪圖的功能(使用DALL-E方式生成) 🥳🥳🥳 但是我自己是用一段時間後,發現到一些疑點和心得:
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News