近期 ChatGPT 更新圖片生成功能,原本用 DALL.E 進行生成,現在改為直接從 GPT-4o 生成。而且可以調整得更細緻。
What's New?
圖片生成雖然很酷,但一直以來遇到一些問題,例如,文字會亂掉、繼續補充說明會跟原圖迥異等。這些在這次的更新都解決了。
我們可以看到官方的範例,指令說要有白板、要有字,字都可以很精確的顯示。甚至繼續補充說明,看起來就像同一個場景的另一張照片。
下例則是要一個三菱鏡散射的實驗說明,圖文並茂。往後,要製作教材、素材等都變得更為容易!
官方說明提到:
GPT‑4o image generation excels at accurately rendering text, precisely following prompts, and leveraging 4o’s inherent knowledge base and chat context—including transforming uploaded images or using them as visual inspiration.
也就是說,圖片中文字可以很明確、指令需求可以很精確的符合、並且結合 4o 的理解力,讓圖片生成更上一層樓。使用者也可以上傳自己的圖片。
限制
官方提到,目前太長的圖片可能會被截掉、仍然可能有幻覺、對於過多的資訊量無法一次呈現(超過10-20個)、非拉丁語系的文字可能會產生問題、細部修整可能較難。
了解這些限制,在使用上才不會太感到挫折~
注意事項
當然,對於不當內容的保護一定是有的,例如色情(尤其是兒童色情)、血腥暴力等,都會無法生成。另外,當上傳的圖片有真人的時候,審查機制也會變得非常嚴格,以防有人變造圖片。(想像若有人拿你的圖片上傳,然後用指令生成奇怪的圖。)
C2PA
OpenAI 會在生成的圖片檔案中加入一些資訊,這些資訊我們肉眼看不到。但可以讓電腦辨識這張圖片是否是由 AI 生成的。在生成 AI 越來越普及的現在,大家普遍鼓勵若使用 AI 要「揭露」使用狀況,讓資訊更透明。
也因為這個機制,所以如果有人用 AI 生成照片想要騙你,也會變得更難。(但還是仰賴求證。)
關於更多資訊可以參考官網 https://openai.com/index/introducing-4o-image-generation/
之後會來討論關於生成圖片的著作權,尤其是近期很紅的生成吉卜力風格。