提升工作效率,TAIDE繁體中文模型應用於Comfyui工作流的心得分享

更新於 發佈於 閱讀時間約 7 分鐘

前言:有點長的前言,但也蠻重要。

首先感謝國科會TAIDE開發團隊在大語言模型的提升與推廣,因為能有一個適合我們自己台灣文化的自然語言模型庫,真的是太棒了!能夠直接使用繁體中文跟語言模型溝通,除了大幅降低了「下指令」這個語言隔閡,畢竟能用自己的自然語言互動是最舒適的,當然語言模型的回應並非百分百正確,當你有疑問仍須加以查證。總之現在大語言模型的應用工具已經百家爭鳴,一般家用個人電腦的資源就足以妥善運用。

ollama工作流(資料來源:Nel wo)

ollama工作流(資料來源:Nel wo)

我自己並非專業人士,所幸現在有許多優秀的LLM平台與工具的開發,可以實現各種近用的可能,在這當中我個人推薦LM Studioollama兩個平台,它們都是可以「一鍵安裝」的好選擇,讓我們可以能輕易地用個人電腦體驗新科技帶來的知識革新與便利,但是因為這篇文章主要還是以Comfyui為軸心,所以我僅介紹目前與Comfyui結合度較高的ollama,也紀錄我如何透過ollama來運作「TAIDE繁體中文模型」的重點,這篇文章的目的是,「希望透過能輸入中文的工作流,產出概念的圖像,讓前期溝通更具體」。請注意我的重點喔,這個工作組合僅適合用於「前期」的概念溝通,特別是影像工作者,或是企劃工作者,是必須向他人溝通「概念」時適用,是「概念溝通」不是最終產品,最後的成品過程仍需要專業資源或團隊來完成,只是希望能縮短這個「概念溝通」的時間,讓雙方有一個想像或是共識,概念溝通其實是最難的事情了。

我也是初學者,一切都是透過自己的試誤學習來研究,若有錯誤之處還請指正,這裡記錄了我如何讓ollama在comfyui上面運作的過程,歡迎有興趣的朋友一起交流學習。

第一步:安裝Comfyui工作流

這一部分我就不多加贅述,可以參考Github上的安裝指引,我也是從這個指引一步一步試著安裝起來,而且也有行動版本可以一鍵安裝。此外把comfyui安裝完畢之後,也請下載自己想要的影像模型,這一部分還請有興趣的朋友自行完成,線上也有許多的Comfyui安裝教學,工作流將在文章後段說明。

第二步:安裝ollama+llava語言模型

安裝ollama非常容易,它是完全免費的開放原始碼工具,可來這裡下載安裝,安裝完之後就會自動執行。接著就要安裝llava,但為什麼一定要安裝llava模型呢?從說明中我們可以知道它是一種多模態的語言模型,廣泛的解釋就是「可用於通用視覺和語言理解」,它除了文字理解,還具備了視覺編碼器,簡單來說除了文字理解,它還能看懂圖片是甚麼,這對於圖像辨識與生成都非常重要,用它來配搭「TAIDE繁體中文模型」是一個不錯的組合。ollama的模型庫都在官網上面,或是你在搜尋欄位搜尋「llava」就可找到它。

安裝llava模型,只要在安裝完ollama之後,在windows搜尋列尋找「Powershell」(如下圖),接著用管理者身份開啟它,等他進入命令列之後,打入「ollama run llava」,靜候下載完成。

管理者身份執行powershell進入命令列

管理者身份執行powershell進入命令列

powershell下安裝llava

powershell下安裝llava

第三步:下載TAIDE語言模型

關於國科會的TAIDE語言模型,目前在ollama官方的模型庫裡找不到,但是能在Hugging Face上面免費下載,截至2024.05.09之前,只需要填寫使用同意書即可使用,我個人是使用較為輕省的版本-Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit。


置放TAIDE模型的位置,我個人建議就放在ollama預設的安裝位置「C:\Users\(這裡是你的使用者名稱)\.ollama\models」,以方便導入至ollama

第四步:在ollama導入TAIDE模型

現在,我們已經準備好Comfyui,ollama+llava模型+TAIDE模型了,接著就是把TAIDE模型導入ollama裡面。

導入TAIDE模型,可參考ollama官方文件的「客製化模組」的說明

1.建立Modelfile.txt:我是建立在這個位置(C:\Users\(這裡是你的使用者名稱)\.ollama\models),在裡面寫入以下資訊後儲存:

FROM ./Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit.gguf

TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""

PARAMETER num_keep 24

PARAMETER num_ctx 1024

PARAMETER stop "<|start_header_id|>"

PARAMETER stop "<|end_header_id|>"

PARAMETER stop "<|eot_id|>"

2.將TAIDE導入ollama:按右鍵以管理者的身份,開啟Powershell,在命令列鍵入以下資訊後按下enter執行即可,順利的話會需要花一點模型轉移的時間

ollama create example -f Modelfile.txt

那個"example"可以自己命名,方便記憶即可,我是命名taiwan3-2。

導入完成後,你也可以用powershell測試看看有無成功,如下圖,若有成功,傳說中的TAIDE專屬的繁體中文回答應該就會出現了,你可以直接用繁體中文與它互動看看。

用ollama與TAIDE溝通看看

用ollama與TAIDE溝通看看

第五步:用Comfyui開啟ollama工作流

comfyui是一種具有高彈性的工作流介面,感謝有許多無私貢獻他們工作流智慧結晶的創作者,讓我們有機會可以一窺這種特殊的工作方式,這次TAIDE+ollama+comfyui的協同工作,還需要ollama的工作節點,這個工作節點的原始檔可以從這個地方下載,可以直接用git clone的方式來完成。

有一個很棒的整合者,這個工作流從前端溝通到最後的圖形生成都有妥善的安排,可以從這裡下載這個工作流,工作流的流程如下圖所示。

ollama工作流(資料來源:Nel Wo)

ollama工作流(資料來源:Nel Wo)

裡面的ollama生成模型,只要改成你導入TAIDE時命名的資料模型名稱就可以,例如我將TAIDE模型命名為taiwan3-2,其他參數細節各位有興趣的朋友可以花一點時間研究看看,可以透過中文繁體輸入情境,產出相關聯的故事概念圖,真的還蠻方便的就是了。我也根據這個工作流,增加成五幕的版本,若你有興趣也可以從這裡下載

ollama workflow 五幕版本

ollama workflow 五幕版本

我不是專業人士,以上步驟純屬於自己的心得記錄,如有錯誤之處還請見諒,也歡迎指正,內容僅作為交流與紀錄參考用途,也感謝這個世界上無私且樂於分享知識的創作者。

有興趣的朋友也可以多多認識TAIDE的開發訊息

《如果我的文章對你有任何的幫助或是啟發,非常歡迎你持續追蹤這裡的專題,或是分享給你的朋友,也感謝你的耐心閱讀。》

祝你順心 by 福妹可啡工作室

avatar-img
48會員
29內容數
純寫字。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
黃東榕的沙龍 的其他內容
這個應用情境可能是,如果你有自己的產品想要以QRcode來行銷,而「文生圖」(txt2img)的結果又無法與你的實際想像契合時,那麼用你的實際產品做為基底的圖生圖(img2img)QRcode就是一個不錯的選項。
有一座橋連接天堂與人間, 因為它繽紛的色彩,於是被稱作「彩虹橋」。 在彩虹橋的彼端是......
個人覺得AI工具雖然很方便,但會不會讓人們愈來愈懶得思考了呢?有這樣的工具,作文都不用想半天了,但會不會寫出來的作文都差不多呢?或許還需要更多的人來驗證看看了,把這些工具當作輔助與幫助,然後讓自己有時間做其他更想做的事情,這樣會不會比較正面積極一點?
疫情發展至今,似乎已經慢慢走進我們的生活日常,2022年也走了一大半,這幾年我們可能 失去了一些,但或許也得到了一些,但歷史終究是一種線性活動,只能不斷地向後推疊,而歷史的影像除了透過攝影器材,這次我想與AI技術一起回顧自己參與的這一段「進行式」,慢慢地用語句拼湊,或許也是另一種建構自己片段的方法。
就像Photoshop與數位設備問世之後,許多暗房作業也跟著已經走入歷史,許多的「懷舊」與「復刻」都可以建立在現代科技的數位製程當中,但「手工藝術」的價值,不也在這樣的缺稀市場裡讓世人重新檢視它的保存價值嗎?繼續堅持暗房沖片的人也大有人在呢!MJ的出現對於許多影像工作者來說,相信都會是腦內衝擊...
這個應用情境可能是,如果你有自己的產品想要以QRcode來行銷,而「文生圖」(txt2img)的結果又無法與你的實際想像契合時,那麼用你的實際產品做為基底的圖生圖(img2img)QRcode就是一個不錯的選項。
有一座橋連接天堂與人間, 因為它繽紛的色彩,於是被稱作「彩虹橋」。 在彩虹橋的彼端是......
個人覺得AI工具雖然很方便,但會不會讓人們愈來愈懶得思考了呢?有這樣的工具,作文都不用想半天了,但會不會寫出來的作文都差不多呢?或許還需要更多的人來驗證看看了,把這些工具當作輔助與幫助,然後讓自己有時間做其他更想做的事情,這樣會不會比較正面積極一點?
疫情發展至今,似乎已經慢慢走進我們的生活日常,2022年也走了一大半,這幾年我們可能 失去了一些,但或許也得到了一些,但歷史終究是一種線性活動,只能不斷地向後推疊,而歷史的影像除了透過攝影器材,這次我想與AI技術一起回顧自己參與的這一段「進行式」,慢慢地用語句拼湊,或許也是另一種建構自己片段的方法。
就像Photoshop與數位設備問世之後,許多暗房作業也跟著已經走入歷史,許多的「懷舊」與「復刻」都可以建立在現代科技的數位製程當中,但「手工藝術」的價值,不也在這樣的缺稀市場裡讓世人重新檢視它的保存價值嗎?繼續堅持暗房沖片的人也大有人在呢!MJ的出現對於許多影像工作者來說,相信都會是腦內衝擊...
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
這篇文章介紹臺語語詞聽寫軟體,包括聽例句寫語詞和聽語詞來練拼音的。功能有選擇漢字+拼音抑是干焦拼音的練習方式,以及白話字抑臺羅的選擇。透過對答案,使用者能即時瞭解自己的練習結果。使用方式、適用對象以及認證適用性都有詳細介紹。兩個網站提供真有效率的學習方法,幫助學習者提升臺語的聽寫能力。
Thumbnail
尋求臺語學習工具?這篇推薦了幾個能夠練習台語對話與翻譯。
Thumbnail
這是一個簡單的工作流,可以對輸入的圖片進行3D重建
Thumbnail
前篇測試如何把提示詞生成的圖像細節提高,這篇要測試的工作流是把任意圖像載入後經由放大模型放大,同時測試放大後重繪看看效果如何。
Thumbnail
瞭解讓AI寫文章的好處,包括提高效率、快速獲取答案和資料整理
Thumbnail
這篇是以預設工作流為基礎,加入提示詞去控制畫面,目的是控制生成圖像的主題跟提升品質。
Thumbnail
這是為了搭建自己想要的工作流而開始的研究工作。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
這篇文章介紹臺語語詞聽寫軟體,包括聽例句寫語詞和聽語詞來練拼音的。功能有選擇漢字+拼音抑是干焦拼音的練習方式,以及白話字抑臺羅的選擇。透過對答案,使用者能即時瞭解自己的練習結果。使用方式、適用對象以及認證適用性都有詳細介紹。兩個網站提供真有效率的學習方法,幫助學習者提升臺語的聽寫能力。
Thumbnail
尋求臺語學習工具?這篇推薦了幾個能夠練習台語對話與翻譯。
Thumbnail
這是一個簡單的工作流,可以對輸入的圖片進行3D重建
Thumbnail
前篇測試如何把提示詞生成的圖像細節提高,這篇要測試的工作流是把任意圖像載入後經由放大模型放大,同時測試放大後重繪看看效果如何。
Thumbnail
瞭解讓AI寫文章的好處,包括提高效率、快速獲取答案和資料整理
Thumbnail
這篇是以預設工作流為基礎,加入提示詞去控制畫面,目的是控制生成圖像的主題跟提升品質。
Thumbnail
這是為了搭建自己想要的工作流而開始的研究工作。