輸入圖片產生提示 Image to Prompt

更新於 發佈於 閱讀時間約 7 分鐘

使用場景

如果你看到一張漂亮的圖片然後也想產生類似的圖片

其中一個方法就是產生這個圖片的提示詞prompt
然後拿著這個提示詞到你習慣使用的圖片產生器去產生圖片

該用ChatGPT還是ComfyUI

當然你直接放到ChatGPT把圖告訴他叫他產生提示詞也可以

使用ComfyUI+專用圖像理解模型ChatGPT圖像輸入產生提示詞的差異

ComfyUI+專用圖像理解模型方式來說:

  • 本機運作(離線使用)
  • 善於提取主體物件、顏色、姿勢
  • 創造性少, 偏向于描述事實

如果你想要快速產出給 Stable Diffusion / Midjourney 用的清晰 prompt(含主體/背景), 那就可以用ComfyUI+專用圖像理解模型方式

你想要風格分析、場景重構, 那ChatGPT 更適合

使用ComfyUI的重點是它可以串後續的工作流, 例如我們將這個圖像轉成的提示值當作輸入, 提供給後續的放大圖像的工作使用, 增加放大時候的精準度

raw-image

步驟

輸入圖像, 選擇適當的圖像理解模型 -> 執行圖像理解模型 -> 產生提示

節點使用說明

節點 1: DownloadAndLoadFlorence2Model

這個節點是下載並載入 Microsoft Florence 2 模型。

  • model: microsoft/Florence-2-base
    指定使用的模型版本。這是微軟官方釋出的 base 版本(中等大小)。
  • precision: fp16
    使用 16-bit 浮點精度,較省記憶體,適合大多數 GPU。
  • attention: sdpa
    使用 Scaled Dot Product Attention 加速注意力機制,通常比傳統方式快。

model的話最佳通用效果可以使用microsoft/Florence-2-large-ft(最高品質、精度)

我會建議嘗試使用MiaoshouAI 系列, 為 prompt 設計、生成高質感描述, 個人使用Florence2-large-PromptGen-v2.0 版本

節點 2: Florence2Run

這是實際執行模型推論的節點,用來生成圖片描述(caption)或執行其他任務。

🔌 輸入連接:

  • image:輸入圖片。
  • florence2_model:來自上一個節點的模型。

🧾 主要參數設定:

  • text_input:
    若為空,代表僅執行圖像描述任務;若填入文字,則會執行與輸入文字相關的任務(如問答、填空等)。
  • task: more_detailed_caption
    指定任務類型。此設定為「更詳細的圖像說明」(比普通 caption 更豐富)。
    可選值例如:
    • caption
    • more_detailed_caption
    • visual_question_answering(搭配 text_input 啟用)
    • grounding 等
  • fill_mask: true
    當使用遮罩任務(如填空或 mask-based task)時是否自動填補遮罩,通常在 caption 模式中保持 true 即可。
  • keep_model_loaded: false
    若為 true,會在多次執行時保留模型於記憶體,節省加載時間但會占用顯存。
  • max_new_tokens: 1024
    模型最多產生的字數,越多越詳細,但可能會拉長生成時間。
  • num_beams: 3
    使用 beam search 的 beam 數,越高越穩定(較少重複詞或語病),但耗時也更多。
  • do_sample: true
    啟用隨機取樣。若設為 false,生成會比較固定。
  • output_mask_select: 未連接
    用於特定任務(如 grounding)選擇輸出的遮罩區域,此處暫未使用。
  • seed: 252416312532741
    隨機種子。固定這個數字可保證每次生成結果一致。
  • control after generate: fixed
    控制生成後的輸出行為,選項可能與多任務處理相關,通常保留預設 fixed 即可。

效果

原圖:

raw-image


產生的提示

A photo-realistic shoot from a profile camera angle about a female character in ornate golden armor, seated in a contemplative pose, with long white hair tied in a ponytail. the image also shows a dark background with a subtle gradient effect. on the middle of the image, a 1woman, who appears to be in her mid-twenties, is sitting with her upper body facing the viewer, looking to the side with a serious expression. she has light skin, blue eyes, and a slender physique. she is wearing a gold armor with intricate details, including shoulder armor, gauntlets, and thigh boots. her hair is styled in a long ponytail, and her hair color is white hair. her eye color is not specified. her facial expression is neutral. her body is slim, and she is facing away from the viewer.

利用提示再生成的圖像(Flux-1.dev)來看一下產生提示詞的準確度, 當然也和生圖模型的理解力有關:

raw-image

被穿褲子了 😎

除了盤坐姿勢, 其他如頭髮, 膚色, 衣服盔甲都有很好的被描述出來

之後如果要做放大效果, 就再輔助例如controlnet就可以將結構再現


留言
avatar-img
留言分享你的想法!
avatar-img
學習 n8n 和 ComfyUI 的筆記
1會員
9內容數
紀錄學習ComfyUI的筆記, 如果有建議或是更正, 還請大家不吝指教, 謝謝
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
目前使用ideogram,免費的額度一天 10 slow prompts,然後需要等待幾十秒到一分多鐘的時間產圖。產出來的圖片還不錯,免費方案的也有幾款風格可以選擇,但產出的圖片只能下載非最高畫質的JPEG檔。
Thumbnail
目前使用ideogram,免費的額度一天 10 slow prompts,然後需要等待幾十秒到一分多鐘的時間產圖。產出來的圖片還不錯,免費方案的也有幾款風格可以選擇,但產出的圖片只能下載非最高畫質的JPEG檔。
Thumbnail
這份筆記整理了AI常見Prompt,幫助你產生更符合需求的圖片。文章包含了比較常用的攝影詞彙、攝影風格、鏡頭、畫面光線詞彙、輔助詞彙、畫面遠近、動畫詞彙、音樂標籤等,並提供了參考資料來源。
Thumbnail
這份筆記整理了AI常見Prompt,幫助你產生更符合需求的圖片。文章包含了比較常用的攝影詞彙、攝影風格、鏡頭、畫面光線詞彙、輔助詞彙、畫面遠近、動畫詞彙、音樂標籤等,並提供了參考資料來源。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
Freepik除了提供素材下載外,還可以線上生成AI圖片, 圖片生成工具名為「AI Image Generator」,只需要輸入文字就能快速生成圖片,每天能免費生成 20 張圖片,還可依照自己的喜好設定不同風格、燈光、畫面尺寸等參數。
Thumbnail
Freepik除了提供素材下載外,還可以線上生成AI圖片, 圖片生成工具名為「AI Image Generator」,只需要輸入文字就能快速生成圖片,每天能免費生成 20 張圖片,還可依照自己的喜好設定不同風格、燈光、畫面尺寸等參數。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
以​文字​建立​影像,有很多功能如下: 完成提示詞之後,選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格,Image2擬真人版風格,我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9,這個有別於目前AI生圖都是1:1版型,這可以依據您想要使
Thumbnail
以​文字​建立​影像,有很多功能如下: 完成提示詞之後,選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格,Image2擬真人版風格,我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9,這個有別於目前AI生圖都是1:1版型,這可以依據您想要使
Thumbnail
前篇測試如何把提示詞生成的圖像細節提高,這篇要測試的工作流是把任意圖像載入後經由放大模型放大,同時測試放大後重繪看看效果如何。
Thumbnail
前篇測試如何把提示詞生成的圖像細節提高,這篇要測試的工作流是把任意圖像載入後經由放大模型放大,同時測試放大後重繪看看效果如何。
Thumbnail
先前藉由加入提示詞控制畫面內容與品質後,發現圖像放大後細節感覺糊糊的,這篇就要來測試幾個增加細節的方法,測試使用的工作流是基於A1111算法的工作流,且使用固定種子。
Thumbnail
先前藉由加入提示詞控制畫面內容與品質後,發現圖像放大後細節感覺糊糊的,這篇就要來測試幾個增加細節的方法,測試使用的工作流是基於A1111算法的工作流,且使用固定種子。
Thumbnail
這篇是以預設工作流為基礎,加入提示詞去控制畫面,目的是控制生成圖像的主題跟提升品質。
Thumbnail
這篇是以預設工作流為基礎,加入提示詞去控制畫面,目的是控制生成圖像的主題跟提升品質。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News