萬能智慧助理讓您錢多事少-使用Fuyu-8b 模型

更新於 2024/10/23發佈於 2023/10/24閱讀時間約 10 分鐘

前言:

訓練一個專屬於自己的守護神有其重要性，可以幫你個性化的解決問題，例如，如果上班經常需要解讀公司的資產負債表，則你可以利用Fuyu專門的去學習如何分析資產負債表，把你手邊有的案例都讓他學習一遍，這樣未來可以解放雙手，輕鬆上班完成任務。假設你是公務員常常寫公文，公文具有隱密性不可上傳到外部Chatgpt，你可以訓練自己的守護神避免資料外，同時又能基於許多圖片與資料，快速的產生公文。要解決這些上班重複性工作，你會需要備份平常上班作業的內容，然後整理成資料給AI去學，這時候就會需要一個輕量化又足夠強的Model。

Fuyu 8B 是目前少數開源且功能強大的全能性模型，它不只可以回答文字問題，還能夠看圖回答問題，它的Transformer編碼器可以兼容圖片與文字，在解碼器那端則是以文字為主，如下圖。這樣的架構加上大量的訓練資料集與80億(8GB @ 8bit 取樣)的參數量，可以讓模型取得很好的看圖說故事/分析/回答問題的能力。Fuyu的部落格網頁上展示了許多用例，底下會幫大家整理，未來可以結合GOOGLE地圖，你可以拍給它你目前的所在圖片，讓它能更精準地知道你的位置，避免因為GPS不靈光導致的誤判，也能夠輔助你回覆一封圖文並茂的電子郵件，總之，應用場合充滿無限的想像空間。

VIT和LLM的結合，期待未來能結合各種輸入，如影片，錄音檔，這樣Model能夠更萬用

看圖回答各種問題:

Fuyu可以幫忙寫圖片的說明文字，也可以問它與圖片內容相關的問題，並且給予建議，這樣一來，每天要交給老闆的報告摘要與分析，都可以讓Fuyu來快速輔助完成，也能夠自動的標記與圖片相符合的文字，這樣撰寫論文會方便許多。

Fuyu 讓我們看到人工智能將來與人類合作並肩作戰的潛力

Fuyu也可以從複雜的圖片內容中總結出結果，表現非常令人驚嘆，圖中把演員與參演的戲劇做成連連看的圖表，你可以問Fuyu某位演員總共餐與多少戲劇!

圖片連連看，這種複雜圖形，也能從中總結出結果

當然簡單的從圖中擷取關鍵數據，也難不倒它，從圖片中挖數據的能力，在將來可能會決定你是能找到一份工作，這個功能解決了許多老闆的痛點!

以後從PNG圖表裡面要抓取完整的CSV數據表格，將不會再是困難的事情

令人驚訝的是Fuyu可以從複雜的海報，以及老舊的PDF中挖取訊息，還能讀懂生物鏈與圖片的形狀分類!

各種複雜文本可以請人工智慧總結完並且核對正確性以後，我們再進行閱讀，可以節省不少時間

複雜圖形問題與食物鏈問題，Fuyu也能駕輕就熟，以後考試也難不倒它

跑在自家電腦上:

Fuyu AI 的 Python Code你可以跑在google Colab，或是你家的電腦上，顯卡記憶體要有8GB以上，以下為兩個用例的程式碼，十分簡潔，更多應用相關的資訊可以參考免費底下的免費聊天諮詢連結。

讓Fuyu幫你的圖片產生標題與說明

from transformers import FuyuProcessor, FuyuForCausalLM
from PIL import Image

# load model and processor
model_id = "adept/fuyu-8b"
processor = FuyuProcessor.from_pretrained(model_id)
model = FuyuForCausalLM.from_pretrained(model_id, device_map="cuda:0")

# prepare inputs for the model
text_prompt = "Generate a coco-style caption.\n"
image_path = "bus.png"  # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/bus.png
image = Image.open(image_path)

inputs = processor(text=text_prompt, images=image, return_tensors="pt")
for k, v in inputs.items():
    inputs[k] = v.to("cuda:0")

# autoregressively generate text
generation_output = model.generate(**inputs, max_new_tokens=7)
generation_text = processor.batch_decode(generation_output[:, -7:], skip_special_tokens=True)
assert generation_text == ['A bus parked on the side of a road.']

注意：該令牌是圖像補丁嵌入的佔位符令牌，因此它將顯示在模型上下文中（例如，在表示模型上下文 |SPEAKER|的部分中）。是「影像換行符」標記，表示影像區塊的光柵掃描順序輸入中的新行。是「答案的開始」標記。generation_output|NEWLINE|\x04

讓Fuyu幫你針對圖片回答問題

text_prompt = "What color is the bus?\n"
image_path = "bus.png"  # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/bus.png
image_pil = Image.open(image_path)

model_inputs = processor(text=text_prompt, images=[image_pil], device="cuda:0")
for k, v in model_inputs.items():
    model_inputs[k] = v.to("cuda:0")

generation_output = model.generate(**model_inputs, max_new_tokens=6)
generation_text = processor.batch_decode(generation_output[:, -6:], skip_special_tokens=True)
assert generation_text == ["The bus is blue.\n"]


text_prompt = "What is the highest life expectancy at birth of male?\n"
image_path = "chart.png"  # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/chart.png
image_pil = Image.open(image_path)

model_inputs = processor(text=text_prompt, images=[image_pil], device="cuda:0")
for k, v in model_inputs.items():
    model_inputs[k] = v.to("cuda:0")

generation_output = model.generate(**model_inputs, max_new_tokens=16)
generation_text = processor.batch_decode(generation_output[:, -16:], skip_special_tokens=True)
assert generation_text == ["The life expectancy at birth of males in 2018 is 80.7.\n"]

為了獲得最佳性能，建議以結束問題\n，如上所示！

Finetune:

@2023/10/24

ArthurZ在四天前允諾大家會盡快分享Finetune 程式出來，如果有最新的Script，會更新，並且放連結上來。

等不及要開始使用Fuyu Model Finetune自己專屬的智能助理了嗎?

心得:

多模態的資料，無論是1D的聲音還是2D的圖片，抑或是3D的影片，或是4D的全息影片，估計在不久的未來，都能夠被Transformer Model拿去做訓練，這樣機器人會更容易做到人類能夠做到的事情，並且可以不眠不休地幫人類解決一些重複單調的工作，也能給人類許多靈感與建議，但是前提是你要會用。現階段，我給大家的建議就是不要去害怕AI，甚至要去擁抱AI，AI可以最大化的豐富你的認知與創造力，也能讓你在短時間內獲得一整間公司的戰力，這樣無論想做甚麼，都不會有像以前一樣這麼高的門檻了。

引用:

@misc{fuyu-8b,
  author = {Bavishi, Rohan and Elsen, Erich and Hawthorne, Curtis and Nye, Maxwell and Odena, Augustus and Somani, Arushi and  Ta\c{s}\i{}rlar, Sa\u{g}nak},
  title = {Introducing our Multimodal Models},
  url = {https://www.adept.ai/blog/fuyu-8b},
  year = {2023}
}

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

無限智慧學院的沙龍的其他內容

2024/06/13

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

預計量子AI計算會在2032年左右來到，在這之前，我們還有充足的時間可以逐步去學習量子計算與演算法，讓我們按部就班，持續前進，做輕鬆無負擔的超前學習 !

2024/06/13

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

2024/06/09

從Computex 窺探人工智慧產業的發展

介紹這次Computex的兩大主題，AI Server與AI PC，展現了台灣廠商強大的供應能力，隨處可見黃仁勳的簽名，展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係，就讓我們一起來探索，這些尖端科技產品。

2024/06/09

從Computex 窺探人工智慧產業的發展

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

#科技力的其他內容

Steam Deck OLED 開箱評測, 改版規格解析, 推薦買下去指數五顆星

你可能也想看

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》，我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物；這次活動不僅送出了許多獎勵，也反映了「內容有價」——創作不只是分享、紀錄，也能用各種不同形式變現、帶來實際收入。

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11

KT在這裡說

2023年底覆盤與展望

陸續看到不少朋友分享覆盤與與展望以前我常覺得只要認真過好每一天檢討隨時進行，何必覆盤呢？直到不久前試著用九宮格練習設定明年目標時，突然領悟，覆盤的目的不一定是自我檢討而是整體回顧一整年的累積，看看自己是否走在正確的路上是否朝著目標前進

2023/12/25

2023/12/25

萬能智慧助理讓您錢多事少-使用Fuyu-8b 模型

訓練一個專屬於自己的守護神有其重要性，可以幫你個性化的解決問題，例如，如果上班常常解讀每個公司的資產負債表，則你可以利用文中的Fuyu-8b model專門的去學習如何看資產負債表，把你手邊有的案例都讓他學習一遍，這樣未來可以解放雙手，輕鬆上班完成任務。

#科技力#LLM#Transformers

2023/10/24

無限智慧學院的沙龍

萬能智慧助理讓您錢多事少-使用Fuyu-8b 模型

#科技力#LLM#Transformers

2023/10/24

怪獸科技公司✖️沙龍

【怪獸雙週快報#19】國慶連假愉快✖️特別節目預告！破框能力＋盲點效應，AI 繪圖DALL·E 3升級來了趕快來玩～

如何應對內卷化，有什麼方式可以幫助我們釐清真正有熱情的目標？Networking 絕招、避免老闆管太多心法大公開！如何增加自己的價值？怎麼和不懂技術的人合作？數據有限的情況下，如何有效用數據解決問題？特別節目非常精彩！

#科技公司#Bing#ChatGPT

2023/10/10

怪獸科技公司✖️沙龍

【怪獸雙週快報#19】國慶連假愉快✖️特別節目預告！破框能力＋盲點效應，AI 繪圖DALL·E 3升級來了趕快來玩～

#科技公司#Bing#ChatGPT

2023/10/10

學習玩家｜啟動玩心學習

開學影分身之術：如何在繁忙中保持笑容，並過著充實的教育工作人生！

這週工作七天好精彩啊！！覺得新學期的開始，就像打開一盒全新的顏色筆🖍️，想畫的圖案太多，而時間總是不夠用？分享我的「開學影分身之術」，如何在繁忙中保持笑容，並過著充實的教育工作人生！

#職場產業#教育#教育工作者

2023/09/19

學習玩家｜啟動玩心學習

開學影分身之術：如何在繁忙中保持笑容，並過著充實的教育工作人生！

#職場產業#教育#教育工作者

2023/09/19

韓筠青的沙龍

室長週報 #32 關於AI翻譯，我的一些想法

近期接觸到了 notion 的AI翻譯功能，一試之下驚為天人，不是只有單純的語句翻譯，還可以選擇...

#松浦彌太郎#第二外語#外語學習

2023/06/14

韓筠青的沙龍

室長週報 #32 關於AI翻譯，我的一些想法

近期接觸到了 notion 的AI翻譯功能，一試之下驚為天人，不是只有單純的語句翻譯，還可以選擇...

#松浦彌太郎#第二外語#外語學習

2023/06/14

瓶裝雪的沙龍

靈魂中的神奇畫面 #4 | 十二星座擬人化與系列總結

這篇文章將會把十二星座運用Midjourney擬人化成動漫妹子，並且為這《靈魂中的神奇畫面》作一個總結。

#靈魂中的神奇畫面#十二星座#Midjourney

2023/05/01

瓶裝雪的沙龍

靈魂中的神奇畫面 #4 | 十二星座擬人化與系列總結

這篇文章將會把十二星座運用Midjourney擬人化成動漫妹子，並且為這《靈魂中的神奇畫面》作一個總結。

#靈魂中的神奇畫面#十二星座#Midjourney

2023/05/01

雙英教育戰線的沙龍

如何請Midjourney AI幫你看圖說故事？ | AI黑科技#003

有接觸AI畫圖的朋友，想必對Midjourney這款軟體並不陌生。對於Midjourney的研究，月英這邊也快研究兩個月的時間了，覺得AI雖然功能十分強大，但是如何駕馭AI，到目前仍然是個挑戰。 AI繪圖有再現性的挑戰尤其在商業市場，一個數位角色，最重要的就是它的樣貌需要再現性，就以黃月英這個角

#AI繪圖#Midjourney#黃月英全人教育戰線

2023/04/09

雙英教育戰線的沙龍

如何請Midjourney AI幫你看圖說故事？ | AI黑科技#003

#AI繪圖#Midjourney#黃月英全人教育戰線

2023/04/09

行歌的沙龍

《再談ＡＩ》

最近幾週，我陷入ＡＩ的魔咒，尋求其助力解決生活和職涯上的種種難題，而它的表現實在令我驚艷。

#ChatGPT#人工智能#自學

2023/03/25

行歌的沙龍

《再談ＡＩ》

最近幾週，我陷入ＡＩ的魔咒，尋求其助力解決生活和職涯上的種種難題，而它的表現實在令我驚艷。

#ChatGPT#人工智能#自學

2023/03/25

平靚安的沙龍

2023是AI元年？

許多AI軟體雨後春筍，雖然減少了部份工作機會，但有體力工作的人，還是要學習、訓練其他能力。除了需要人照顧、看管（或管理）、決策、執行……之類的仍缺不了人，有綜合能力的人可善用AI。把原本自己一個人很難完成的事，善用多種AI輔助，完成一個又一個成品。比如：對於影片自媒體經營者，無疑多了好幾個幫手。

2023/03/08

2023/03/08

在人工智能發展日趨成熟與先進的今日，人們對於人形智能的機器人管家始終有一種浪漫的想像。希望能有一個忠實的為我們分擔家庭、公司上需要體力的勞務工作，也希望能像人一樣可以在孤單時和你對話談心。而在距離人類可以上火星旅行的日子前，我們真的有可能研發出這樣的機器人嗎？你也喜歡機器人嗎？不久前，

2021/03/15

2021/03/15

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News

前言:

看圖回答各種問題:

跑在自家電腦上:

讓Fuyu幫你的圖片產生標題與說明

讓Fuyu幫你針對圖片回答問題

Finetune:

心得:

引用:

廣告: