有沒有特化走差,Gemini2.0Flash thinking與特化版比較-生成圖逆向工程

更新於 發佈於 閱讀時間約 11 分鐘

由於Google把自家實驗室的新玩意都放在

AI studio網頁裡面導致說大部分人對Gemini的評價不是很好,這篇文紀錄的是 Image to Text(prompts)

規則很簡單,筆者以前生成的東西丟進去Gemini2.0Flash thinking與放在AI studio網頁的圖像特化版去做比較 預設設定什麼都沒有調整

raw-image

Gemini2.0Flash thinking

根據您上傳的圖片,我推測可能的 prompt 包含以下元素: * 主體描述: 一位動漫風格的年輕女性,穿著列車長的制服。 * 服裝細節: 黑色的外套,金色的滾邊,白色的多層次裙子,紅色的手套,黑色的長靴,頭戴列車長帽子。 * 背景描述: 看起來像是在火車站的月台或列車內部,有鐵軌、列車等元素。 * 畫面風格: 動漫風格,細緻的畫風。 綜合以上,一個可能的 prompt 範例如下: anime girl, young woman, train conductor uniform, black jacket with gold trim, white ruffled skirt, red gloves, black boots, conductor hat, train station platform, train in background, detailed, high quality 當然,這只是眾多可能的 prompt 之一

(你可以看到非常重點簡易,前面還有一陀廢話 但很不錯了,有把核心弄出來)

圖像特化版的thinking

Core Subject: (核心指令) A young woman: This is the central figure. (人物是這張畫面的中心) Anime style / Manga style: Evident in the large eyes, detailed hair, and overall aesthetic. (根據圖像得知這是動漫,漫畫風格) Train conductor uniform inspired: The hat, jacket with gold trim, potentially the gloves, and the overall formal yet slightly stylized look suggest this. (金邊外套、帽子與手套(可能是手套)以及整體正式略帶風格化的外觀證明這點)(服裝靈感來自車長制服的證明) Long black hair: The flowing, dark hair is a prominent feature. (關於頭髮的部分,細節沒弄好不過對模型來講那是不必要的細節) Red or pink eyes: The eye color is clearly visible. (瞳孔顏色,顏色清晰可見

顏色這點就算是Grok也辦不太到

它跑出來的遠看一致細看異色瞳) Clothing Details: (關於服裝的細節) Conductor's hat: Likely with a specific design or emblem (though partially obscured). (帽子上面有特別設計或是徽章,但是被擋住)(實際上是Lora訓練的時候就有的問題) Dark jacket with gold trim/detailing: The jacket has a structured shape and noticeable gold accents. (帶細節與金邊的深色外套,那個結構很明顯是外套 然後金邊很明顯) White frilly blouse/shirt: Visible at the neckline and possibly cuffs. (白色荷葉邊襯衫/上衣) Corset or fitted waist: The outfit seems to cinch at the waist. (收腰/緊身設計) Long, light-colored skirt with ruffles: The skirt is voluminous and has layered ruffles at the hem. (帶折邊的淺色大長裙) Red gloves: Bright red gloves stand out. (紅色手套,用紅色很突出) Dark boots or stockings: Visible below the skirt. (深色靴子或長襪,這邊應該是辨識不太出來)

(人物原型:まいてつ的八六) Setting/Background: (場景,風格設定與細節) Inside a train or train station: The presence of train carriages, overhead structures, pipes, and possibly platform elements indicates this. (月台或車廂內)(很接近了,原設我是寫駕駛室) Slightly industrial or vintage feel: The visible machinery and architectural details hint at this. (略帶工業/復古感)(蒸氣車頭欸,能不復古嗎) Soft, diffused lighting: The lighting doesn't seem harsh, creating a slightly dreamy atmosphere. (漫射光線,光線不刺眼,看起來有夢幻感)

(原設是太陽光) Artistic Style and Details(風格與細節) Detailed linework: Common in anime and manga. (細緻線條) Smooth shading: The rendering of the character and background suggests smooth gradients. (平滑陰影) Emphasis on hair detail: Individual strands and flow of the hair are well-defined. (頭髮細節)(對人類來說還不夠細,對電腦來說很細了) Slightly low angle perspective: The viewer seems to be looking slightly up at the character. (低角度)

到這邊你會發現它把每個抓到的細節全部提出來,且解釋為什麼要把這個細節提出來,詞彙也比原始思考版精細不少。

但真正拉開差距的呢

是接下來的


多個可能指令

Possible Prompts (Variations): Here are a few ways these elements could have been combined in prompts: Simple Prompt: (最簡要的版本) anime girl train conductor uniform, long black hair, red eyes, inside a train, detailed, soft lighting More Specific Prompt: (更加具體描述) young woman with long black flowing hair and red eyes wearing a stylized train conductor uniform with gold trim and a white frilly skirt, red gloves, inside a vintage train carriage, detailed anime art style, soft ambient light, low angle view Prompt with Artistic Style Keywords: (帶有風格化關鍵詞) anime illustration of a beautiful girl in a modified train conductor outfit, black hair, pink eyes, frilly white blouse, long ruffled light beige skirt, red gloves, standing inside a train station with visible train details, detailed shading, high-quality Prompt Emphasizing Mood: (強調氛圍的版本) dreamy anime girl, train conductor uniform inspired, black hair flowing, captivating red eyes, delicate white ruffles, long skirt, inside an old train, atmospheric lighting, detailed background (負向提示詞(不該在畫面上出現的)) Negative Prompts (Things to exclude, though not always explicitly stated): realistic, photorealistic, messy, blurry, bad anatomy, multiple people Key Takeaways for Reversing Prompts: (逆向工程prompts的幾個重點)

我的天啊它還教你如何逆向工程

Identify the core subject and its defining features. Break down the visual details of clothing, setting, and artistic style. Consider the overall mood and atmosphere. Think about keywords commonly used in image generation for desired styles (e.g., "anime," "detailed," "soft lighting"). Recognize that there isn't always one exact prompt, but rather a combination of descriptive terms. The generated image likely used a combination of these elements, and potentially more specific details or stylistic keywords depending on the AI model used.

留言
avatar-img
留言分享你的想法!
林楷庭(熊三飛彈)-avatar-img
發文者
2025/04/24
avatar-img
林的怪東西集中地
2會員
23內容數
怪東西都會在這裡
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
在這個資訊爆炸的時代,我們每天都會接觸到大量的資訊。然而,要從中找到我們真正需要的信息,卻並非易事。此外,我們的工作和生活中也常常需要進行一些繁瑣的任務,例如寫作、翻譯、搜索等。這些任務往往耗時費力,讓人感到疲憊不堪。推薦最強的AI助理Monica、‎Gemini、Recraft圖片或ICON創作
Thumbnail
在這個資訊爆炸的時代,我們每天都會接觸到大量的資訊。然而,要從中找到我們真正需要的信息,卻並非易事。此外,我們的工作和生活中也常常需要進行一些繁瑣的任務,例如寫作、翻譯、搜索等。這些任務往往耗時費力,讓人感到疲憊不堪。推薦最強的AI助理Monica、‎Gemini、Recraft圖片或ICON創作
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News