https://cdn.openai.com/papers/dall-e-3.pdf
Published by openAI team
為了提高文字生成影像的品質,openAI 團隊用了三招:
第一招,利用模型將文字"升取樣",產生出許多描述細節當訓練資料
第二招,用CLIP ViT產生Embeddings,計算Cosine distance
第三招,使用GPT4,對生成結果進行評比。
先來看看放在頭版頁面的生成圖片結果,感受一下DALL-E3的威力!
把CLIP ViT對ground true 圖片做編碼,然後比對DALLE3生成圖片用同樣CLIP ViT做編碼,兩者的Cosine distance,DALLE3生成的圖片與Ground True越相似,得到的分數越低。
如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。
如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)