【Hugging Face】Ep.7 以文生圖的魔幻製圖師(Text To Image)

更新於 2023/07/31發佈於 2023/07/31閱讀時間約 5 分鐘

我們過往介紹了幾個關於文字AI應用的篇章：

但單獨的文字應用似乎不太能滿足千變萬化的應用時代，相信常常我們都有在Line、Facebook看到過梗圖吧！但這些梗圖都非常的陽春，通常在我們給予的背景圖上加註文字，就產生很多的問候圖，非常的呆板，那如果AI能夠理解我們的意圖並繪製出圖片不就更完美了嗎？很幸運的我們搭上了AI發展的時代列車，這樣的技術也越趨成熟，各式各樣的模型也都有高手經過微調放置在網路上開源共享，這個篇章我們就會實際以技術角度來進行使用，並測試看看效果如何。

圖片來源

我們需要哪些素材？

由於目前效果最好的莫過於「stable-diffusion」了，它是2022年發布的深度學習文字到圖像生成模型，因此我們也會以它來進行任務，但此模型對於「中文」的識別來說並不友善 😔 ，那我們能怎麼做呢？

當然可以對該模型進行Fine Tune， But…數據哪裡來？

除了自行Fine Tune之外還有別的思路嗎？當然有！我們在「【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官」有介紹了如何搭建一個翻譯官，那這位翻譯官不就能夠幫助我們將中文翻譯成中文了嗎？透過簡單的AI工具庫組合技巧就能夠幫我們完成中文語句產生圖像的任務了，如此一來需要的素材大致如下：

翻譯AI: Helsinki-NLP/opus-mt-zh-en
文字生成圖片AI: runwayml/stable-diffusion-v1-5

怎麼找這些模型呢？

在「【Hugging Face】Ep.3 前往Dataset掏金趣」我們有介紹過HuggingFace平台如何精準的找出我們需要的模型。

安裝套件

!pip install diffusers
!pip install transformers

我們先看看尚未翻譯過的成果

from diffusers import StableDiffusionPipeline
import torch

t2i = StableDiffusionPipeline.from_pretrained('runwayml/stable-diffusion-v1-5')
t2i = t2i.to("cpu")

prompt = "一個在窗戶上的蘋果"
image = t2i(prompt).images[0]  
image

圖片來源

我們期望有蘋果、有窗， But…怎麼會是這樣呢？這是什麼鬼?

仔細看了官方說明文件有指出: 「該模型主要使用英文字幕進行訓練，在其他語言中效果不佳。」

圖片來源

既然如此我們何不搭個翻譯官，幫我們將中文翻譯成英文再讓以文產圖機器人更容易理解呢？

透過翻譯讓AI更理解我們的需求

我們就在產生圖片之前加掛翻譯功能，將我們的中文語句翻譯成英文，再讓Text-to-Image AI理解我們真正的意圖。

翻譯

透過翻譯，讓我們將中文轉換成英文。

from transformers import pipeline
# 使用翻譯任務
translator = pipeline("translation", model='Helsinki-NLP/opus-mt-zh-en') 

t = translator('一個在窗戶上的蘋果')
prompt = t[0]['translation_text']

重新生成圖片

image = t2i(prompt).images[0]  
image

圖片來源

看起來正常多了，有窗、有蘋果，基本上都滿足我們提出的需求。

今天的範例都在這裡「📦huggingface/huggingface_text2image.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

結語

藉由Hugging Face平台，我們可以親手打造各式各樣的AI機器人，上面也已經有許多前輩分享的模型可供使用，對於我們來說只要站在巨人的肩膀上即可，也期望有朝一日我們也能訓練出對這世界更有幫助的AI模型。

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入？

歡迎加入一起練習寫作，賺取知識！

更多關於【Hugging Face 系列】…

阿Han的沙龍阿Han的軟體技術棧 💡AI

留言

留言分享你的想法！

阿Han的沙龍

128會員

282內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/23

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

2025/04/23

【🤖 cursor AI】如何使用MCP Server

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

#AI創作的其他內容

AI工具怎麼幫助我們學習程式－ChatGPT的實踐與範例

Ken Chen的沙龍

AWS SageMaker 開箱體驗

西尼亞ming的沙龍

沒有機器學習經驗的我嘗試了 Amazon SageMaker JumpStart

你可能也想看

Dr HI的眼科沙龍

光的選擇，就是視力的選擇— Philips 飛利浦 A5 軒博全光譜智能LED護眼檯燈

大家好，我是一名眼科醫師，也是一位孩子的媽身為眼科醫師的我，我知道視力發展對孩子來說有多關鍵。每到開學季時，診間便充斥著許多憂心忡忡的家屬。近年來看診中，兒童提早近視、眼睛疲勞的案例明顯增加，除了3C使用過度，最常被忽略的，就是照明品質。然而作為一位媽媽，孩子能在安全、舒適的環境

#momo購物網#Philips飛利浦#軒博

2025/04/30

Dr HI的眼科沙龍

光的選擇，就是視力的選擇— Philips 飛利浦 A5 軒博全光譜智能LED護眼檯燈

#momo購物網#Philips飛利浦#軒博

2025/04/30

逗點的沙龍

去日本自助旅行要帶多少日幣現金？最新經驗談

提供一條簡單公式、一套盤點思路，幫助你快速算出去日本自助旅遊需要準備多少日幣現金！

#日本#去日本旅遊要帶多少現金#日本自助旅行現金

2024/05/27

逗點的沙龍

去日本自助旅行要帶多少日幣現金？最新經驗談

提供一條簡單公式、一套盤點思路，幫助你快速算出去日本自助旅遊需要準備多少日幣現金！

#日本#去日本旅遊要帶多少現金#日本自助旅行現金

2024/05/27

夜晚探索的沙龍

分享用AI創建有趣動物圖片

AI生成圖片是一個挑戰性的任務，雖然AI能理解文字需求，但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成，而加入擬人化的描述可以讓AI更好地理解需求。無論如何，AI生成圖片仍面臨許多挑戰，需要更多的研究與嘗試。

2024/08/02

2024/08/02

　　在 AI 應用中，圖像、語音、文字三種可以說是主要應用，其中我一直以來都是專注於圖像上的研究，對於另兩種僅止於淺嚐，接下來就往音訊上研究看看，先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用，那麼，就讓我們開始吧。

2024/05/24

2024/05/24

AI 表情符號產生器，讓你的聊天更有趣！只要輸入你的想法，就能生成獨一無二的 Emoji

「AI 表情符號產生器」的工具採用了 Stable Diffusion 技術，能夠將文字轉換為生動的表情符號。每日提供 6 個免費生成額度，只需輸入提示詞，就可以生成獨特且高品質的表情符號。

#AI#AI繪圖#聊聊AI繪圖

2024/02/16

原來可以這樣做沙龍

AI 表情符號產生器，讓你的聊天更有趣！只要輸入你的想法，就能生成獨一無二的 Emoji

#AI#AI繪圖#聊聊AI繪圖

2024/02/16

RJ的沙龍

AI圖片站，AI浪潮下最熱門的主題之一

過去這一年是AI相關應用大爆發的一年，在過去一年中有各種主題的AI工具出現。最熱門的主題可能是資訊總結（Chat with pdf）、AI對話助手（chatgpt求解、客服）以及AI圖片等等。 Replicate是一個著名的API網站，你可以在上面透過API使用各式各樣不同model的服務。

2023/12/20

2023/12/20

今日我們使用一個也是很簡易的，以ai來抓取生成【圖生圖】，依照你放入的畫風，能夠實現各種風格觸感而不被發現是AI畫的，真是便利的工具，俗稱: AI圖生圖

2023/11/11

2023/11/11

【Hugging Face】Ep.7 以文生圖的魔幻製圖師(Text To Image)

我們過往介紹了幾個關於文字AI應用的篇章：【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition) 【Hugging Face】Ep.6 解決問題的專業級破關知識家(Question Answering) 但單獨的文字應用似乎不太能

#AI#AI創作#技術組

2023/07/31

阿Han的沙龍

【Hugging Face】Ep.7 以文生圖的魔幻製圖師(Text To Image)

#AI#AI創作#技術組

2023/07/31

阿Han的沙龍

【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官

我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」，而這次就來實際動手進行開發，讓我們自己的AI自己做。由於AI模型的訓練往往都會比較耗時，因此建議需要有GPU環境會比較有效率一些，否則訓練模行動輒好幾個小時才能看到結果，一

#AI#Huggingface#ChatGPT

2023/07/04

阿Han的沙龍

【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官

#AI#Huggingface#ChatGPT

2023/07/04

阿Han的沙龍

【Hugging Face】Ep.1 平凡人也能玩的起的AI平台

它到底是什麼？簡單說Hugging Face是人工智慧開源平台，開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型，上萬資料庫，包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。理念與目標我們都知道最近火紅的O

#AI#ChatGPT#AI創作

2023/07/03

阿Han的沙龍

【Hugging Face】Ep.1 平凡人也能玩的起的AI平台

#AI#ChatGPT#AI創作

2023/07/03

油菜夫妻一粒籽的沙龍

#4 AI生成圖片教學

AI 生成圖片已經夯一陣子了油菜爸也玩過好幾種生圖軟體不知道大家對於這新穎的技術感不感興趣或許我們可以來場線上直播或整理成小文章來教大家如何快速上手，快速生圖唷 ~ #StableDiffusion #Midjourney #leonardoai #Ai生成 #Ai生圖

2023/06/21

2023/06/21

安裝 Git https://git-scm.com/downloads 下載waifu-diffusion模型 https://huggingface.co/hakurei/waifu-diffusion 完整下載 https://huggingface.co/hakurei/waifu-dif

#AI#python#pytorch

2022/12/30

吳佳鑫的沙龍

AI 動漫產生器

安裝 Git https://git-scm.com/downloads 下載waifu-diffusion模型 https://huggingface.co/hakurei/waifu-diffusion 完整下載 https://huggingface.co/hakurei/waifu-dif

#AI#python#pytorch

2022/12/30

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News