好的教科書就有好的人工智慧-DALL-E3

更新於 發佈於 閱讀時間約 2 分鐘

Improving Image Generation with Better Captions

https://cdn.openai.com/papers/dall-e-3.pdf

Published by openAI team

前言:

為了提高文字生成影像的品質,openAI 團隊用了三招:

第一招,利用模型將文字"升取樣",產生出許多描述細節當訓練資料

第二招,用CLIP ViT產生Embeddings,計算Cosine distance

第三招,使用GPT4,對生成結果進行評比。

先來看看放在頭版頁面的生成圖片結果,感受一下DALL-E3的威力!

對細節的極致描述,產生出極致的生成影像結果

對細節的極致描述,產生出極致的生成影像結果

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

比較一下文字描述細節帶來的差異:

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

使用GPT4取得詳細圖片描述的方法:

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

使用Cosine distance來衡量生成效果:

把CLIP ViT對ground true 圖片做編碼,然後比對DALLE3生成圖片用同樣CLIP ViT做編碼,兩者的Cosine distance,DALLE3生成的圖片與Ground True越相似,得到的分數越低。

普遍機器學習的學生,相信對於這公式不陌生

普遍機器學習的學生,相信對於這公式不陌生

使用GPT4來評量生成圖片與文字相不相符:

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

評估結果完勝:

DALL-E3 在Cosine similarity 上面有顯著的增加

DALL-E3 在Cosine similarity 上面有顯著的增加

引用:


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

 https://calendly.com/universe_ai/free_appointment

留言
avatar-img
留言分享你的想法!
avatar-img
無限智慧學院的沙龍
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2024/06/13
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
2024/06/13
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
2024/06/09
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
Thumbnail
2024/06/09
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
在某次chatgpt 4更新後(Chatgpt 4需要付費才能使用) chatgpt新增了AI繪圖的功能(使用DALL-E方式生成) 🥳🥳🥳 但是我自己是用一段時間後,發現到一些疑點和心得:
Thumbnail
在某次chatgpt 4更新後(Chatgpt 4需要付費才能使用) chatgpt新增了AI繪圖的功能(使用DALL-E方式生成) 🥳🥳🥳 但是我自己是用一段時間後,發現到一些疑點和心得:
Thumbnail
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
我看很多人都比較在意用GPT產生一些高品質圖片 但是使用DALLE3總是會有一些版權限制 網路上的解決方案都很差 無法產生完整一樣的圖片 其實這些都是一個簡單的思路轉換可以搞定的 我還是強烈建議大家在使用AI的過程中 千萬不要被自己的思想限制了 解決問題的創造力是我們在AI時代唯一最寶
Thumbnail
我看很多人都比較在意用GPT產生一些高品質圖片 但是使用DALLE3總是會有一些版權限制 網路上的解決方案都很差 無法產生完整一樣的圖片 其實這些都是一個簡單的思路轉換可以搞定的 我還是強烈建議大家在使用AI的過程中 千萬不要被自己的思想限制了 解決問題的創造力是我們在AI時代唯一最寶
Thumbnail
操作很簡單 使用電腦 開啟GPT-4,選擇DALLE.3 複製這段指令進去 注意:這條指令只針對chatgpt 的PLUS會員,同時已經可以使用DALLE.3的使用者。 ##圖片提示字產生器 版本:v0.11 作者:秒懂AI提問指令 {任務}你將扮演圖片提示詞產生器,當我提供簡短{主
Thumbnail
操作很簡單 使用電腦 開啟GPT-4,選擇DALLE.3 複製這段指令進去 注意:這條指令只針對chatgpt 的PLUS會員,同時已經可以使用DALLE.3的使用者。 ##圖片提示字產生器 版本:v0.11 作者:秒懂AI提問指令 {任務}你將扮演圖片提示詞產生器,當我提供簡短{主
Thumbnail
DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。 目前在微軟的bing與chatGPT Plus中都可以試用DALL·E 3,這篇文章除了簡介DALL·E 3的進步與特性之外,也比較在bing與chatGPT Plus這兩個平台中使用DALL·E 3有何不同?有
Thumbnail
DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。 目前在微軟的bing與chatGPT Plus中都可以試用DALL·E 3,這篇文章除了簡介DALL·E 3的進步與特性之外,也比較在bing與chatGPT Plus這兩個平台中使用DALL·E 3有何不同?有
Thumbnail
上片文章提到的,Dalle-E3這個殺手級的AI繪圖軟體,除了在Bing上面可以使用以外,現在也開放給ChatGPT plus 的使用者了。本篇就來探討關於ChatGPT + DALL-E3可以激盪出什麼不同的火花,我們又該怎麼"正確"的使用這個產品
Thumbnail
上片文章提到的,Dalle-E3這個殺手級的AI繪圖軟體,除了在Bing上面可以使用以外,現在也開放給ChatGPT plus 的使用者了。本篇就來探討關於ChatGPT + DALL-E3可以激盪出什麼不同的火花,我們又該怎麼"正確"的使用這個產品
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News