有沒有特化走差,Gemini2.0Flash thinking與特化版比較-生成圖逆向工程

更新於 發佈於 閱讀時間約 11 分鐘

由於Google把自家實驗室的新玩意都放在

AI studio網頁裡面導致說大部分人對Gemini的評價不是很好,這篇文紀錄的是 Image to Text(prompts)

規則很簡單,筆者以前生成的東西丟進去Gemini2.0Flash thinking與放在AI studio網頁的圖像特化版去做比較 預設設定什麼都沒有調整

raw-image

Gemini2.0Flash thinking

根據您上傳的圖片,我推測可能的 prompt 包含以下元素: * 主體描述: 一位動漫風格的年輕女性,穿著列車長的制服。 * 服裝細節: 黑色的外套,金色的滾邊,白色的多層次裙子,紅色的手套,黑色的長靴,頭戴列車長帽子。 * 背景描述: 看起來像是在火車站的月台或列車內部,有鐵軌、列車等元素。 * 畫面風格: 動漫風格,細緻的畫風。 綜合以上,一個可能的 prompt 範例如下: anime girl, young woman, train conductor uniform, black jacket with gold trim, white ruffled skirt, red gloves, black boots, conductor hat, train station platform, train in background, detailed, high quality 當然,這只是眾多可能的 prompt 之一

(你可以看到非常重點簡易,前面還有一陀廢話 但很不錯了,有把核心弄出來)

圖像特化版的thinking

Core Subject: (核心指令) A young woman: This is the central figure. (人物是這張畫面的中心) Anime style / Manga style: Evident in the large eyes, detailed hair, and overall aesthetic. (根據圖像得知這是動漫,漫畫風格) Train conductor uniform inspired: The hat, jacket with gold trim, potentially the gloves, and the overall formal yet slightly stylized look suggest this. (金邊外套、帽子與手套(可能是手套)以及整體正式略帶風格化的外觀證明這點)(服裝靈感來自車長制服的證明) Long black hair: The flowing, dark hair is a prominent feature. (關於頭髮的部分,細節沒弄好不過對模型來講那是不必要的細節) Red or pink eyes: The eye color is clearly visible. (瞳孔顏色,顏色清晰可見

顏色這點就算是Grok也辦不太到

它跑出來的遠看一致細看異色瞳) Clothing Details: (關於服裝的細節) Conductor's hat: Likely with a specific design or emblem (though partially obscured). (帽子上面有特別設計或是徽章,但是被擋住)(實際上是Lora訓練的時候就有的問題) Dark jacket with gold trim/detailing: The jacket has a structured shape and noticeable gold accents. (帶細節與金邊的深色外套,那個結構很明顯是外套 然後金邊很明顯) White frilly blouse/shirt: Visible at the neckline and possibly cuffs. (白色荷葉邊襯衫/上衣) Corset or fitted waist: The outfit seems to cinch at the waist. (收腰/緊身設計) Long, light-colored skirt with ruffles: The skirt is voluminous and has layered ruffles at the hem. (帶折邊的淺色大長裙) Red gloves: Bright red gloves stand out. (紅色手套,用紅色很突出) Dark boots or stockings: Visible below the skirt. (深色靴子或長襪,這邊應該是辨識不太出來)

(人物原型:まいてつ的八六) Setting/Background: (場景,風格設定與細節) Inside a train or train station: The presence of train carriages, overhead structures, pipes, and possibly platform elements indicates this. (月台或車廂內)(很接近了,原設我是寫駕駛室) Slightly industrial or vintage feel: The visible machinery and architectural details hint at this. (略帶工業/復古感)(蒸氣車頭欸,能不復古嗎) Soft, diffused lighting: The lighting doesn't seem harsh, creating a slightly dreamy atmosphere. (漫射光線,光線不刺眼,看起來有夢幻感)

(原設是太陽光) Artistic Style and Details(風格與細節) Detailed linework: Common in anime and manga. (細緻線條) Smooth shading: The rendering of the character and background suggests smooth gradients. (平滑陰影) Emphasis on hair detail: Individual strands and flow of the hair are well-defined. (頭髮細節)(對人類來說還不夠細,對電腦來說很細了) Slightly low angle perspective: The viewer seems to be looking slightly up at the character. (低角度)

到這邊你會發現它把每個抓到的細節全部提出來,且解釋為什麼要把這個細節提出來,詞彙也比原始思考版精細不少。

但真正拉開差距的呢

是接下來的


多個可能指令

Possible Prompts (Variations): Here are a few ways these elements could have been combined in prompts: Simple Prompt: (最簡要的版本) anime girl train conductor uniform, long black hair, red eyes, inside a train, detailed, soft lighting More Specific Prompt: (更加具體描述) young woman with long black flowing hair and red eyes wearing a stylized train conductor uniform with gold trim and a white frilly skirt, red gloves, inside a vintage train carriage, detailed anime art style, soft ambient light, low angle view Prompt with Artistic Style Keywords: (帶有風格化關鍵詞) anime illustration of a beautiful girl in a modified train conductor outfit, black hair, pink eyes, frilly white blouse, long ruffled light beige skirt, red gloves, standing inside a train station with visible train details, detailed shading, high-quality Prompt Emphasizing Mood: (強調氛圍的版本) dreamy anime girl, train conductor uniform inspired, black hair flowing, captivating red eyes, delicate white ruffles, long skirt, inside an old train, atmospheric lighting, detailed background (負向提示詞(不該在畫面上出現的)) Negative Prompts (Things to exclude, though not always explicitly stated): realistic, photorealistic, messy, blurry, bad anatomy, multiple people Key Takeaways for Reversing Prompts: (逆向工程prompts的幾個重點)

我的天啊它還教你如何逆向工程

Identify the core subject and its defining features. Break down the visual details of clothing, setting, and artistic style. Consider the overall mood and atmosphere. Think about keywords commonly used in image generation for desired styles (e.g., "anime," "detailed," "soft lighting"). Recognize that there isn't always one exact prompt, but rather a combination of descriptive terms. The generated image likely used a combination of these elements, and potentially more specific details or stylistic keywords depending on the AI model used.

avatar-img
2會員
9內容數
這裡是林的文章集中地 調照片/人工智慧/怪東西都會在這裡
留言
avatar-img
留言分享你的想法!
林的文章集中地 的其他內容
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
你可能也想看
Google News 追蹤
Thumbnail
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
Thumbnail
本文探討AI筆記工具的優缺點、選擇建議及未來趨勢,比較NotebookLM、OneNote+Copilot、Notion AI、Obsidian+GPT插件和Palantir Foundry等工具,並強調安全注意事項及個人需求評估的重要性。
Thumbnail
全方位分析脫離繼承戰的方法,大膽猜測誰會成為卡丁國下一任國王。
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
AI 繪圖是一種利用人工智慧技術,根據文字描述,生成出各種風格和主題的圖片的方法,不僅可以讓你實現你的想像力,還可以讓你了解到 AI 的創造力。
Thumbnail
未來,針對圖片生成的 prompt engineering 可能會越來越不重要。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
Thumbnail
本文探討AI筆記工具的優缺點、選擇建議及未來趨勢,比較NotebookLM、OneNote+Copilot、Notion AI、Obsidian+GPT插件和Palantir Foundry等工具,並強調安全注意事項及個人需求評估的重要性。
Thumbnail
全方位分析脫離繼承戰的方法,大膽猜測誰會成為卡丁國下一任國王。
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
AI 繪圖是一種利用人工智慧技術,根據文字描述,生成出各種風格和主題的圖片的方法,不僅可以讓你實現你的想像力,還可以讓你了解到 AI 的創造力。
Thumbnail
未來,針對圖片生成的 prompt engineering 可能會越來越不重要。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,