萬能智慧助理讓您錢多事少-使用Fuyu-8b 模型

更新於 2024/10/23發佈於 2023/10/24閱讀時間約 10 分鐘

前言:

訓練一個專屬於自己的守護神有其重要性，可以幫你個性化的解決問題，例如，如果上班經常需要解讀公司的資產負債表，則你可以利用Fuyu專門的去學習如何分析資產負債表，把你手邊有的案例都讓他學習一遍，這樣未來可以解放雙手，輕鬆上班完成任務。假設你是公務員常常寫公文，公文具有隱密性不可上傳到外部Chatgpt，你可以訓練自己的守護神避免資料外，同時又能基於許多圖片與資料，快速的產生公文。要解決這些上班重複性工作，你會需要備份平常上班作業的內容，然後整理成資料給AI去學，這時候就會需要一個輕量化又足夠強的Model。

Fuyu 8B 是目前少數開源且功能強大的全能性模型，它不只可以回答文字問題，還能夠看圖回答問題，它的Transformer編碼器可以兼容圖片與文字，在解碼器那端則是以文字為主，如下圖。這樣的架構加上大量的訓練資料集與80億(8GB @ 8bit 取樣)的參數量，可以讓模型取得很好的看圖說故事/分析/回答問題的能力。Fuyu的部落格網頁上展示了許多用例，底下會幫大家整理，未來可以結合GOOGLE地圖，你可以拍給它你目前的所在圖片，讓它能更精準地知道你的位置，避免因為GPS不靈光導致的誤判，也能夠輔助你回覆一封圖文並茂的電子郵件，總之，應用場合充滿無限的想像空間。

VIT和LLM的結合，期待未來能結合各種輸入，如影片，錄音檔，這樣Model能夠更萬用

看圖回答各種問題:

Fuyu可以幫忙寫圖片的說明文字，也可以問它與圖片內容相關的問題，並且給予建議，這樣一來，每天要交給老闆的報告摘要與分析，都可以讓Fuyu來快速輔助完成，也能夠自動的標記與圖片相符合的文字，這樣撰寫論文會方便許多。

Fuyu 讓我們看到人工智能將來與人類合作並肩作戰的潛力

Fuyu也可以從複雜的圖片內容中總結出結果，表現非常令人驚嘆，圖中把演員與參演的戲劇做成連連看的圖表，你可以問Fuyu某位演員總共餐與多少戲劇!

圖片連連看，這種複雜圖形，也能從中總結出結果

當然簡單的從圖中擷取關鍵數據，也難不倒它，從圖片中挖數據的能力，在將來可能會決定你是能找到一份工作，這個功能解決了許多老闆的痛點!

以後從PNG圖表裡面要抓取完整的CSV數據表格，將不會再是困難的事情

令人驚訝的是Fuyu可以從複雜的海報，以及老舊的PDF中挖取訊息，還能讀懂生物鏈與圖片的形狀分類!

各種複雜文本可以請人工智慧總結完並且核對正確性以後，我們再進行閱讀，可以節省不少時間

複雜圖形問題與食物鏈問題，Fuyu也能駕輕就熟，以後考試也難不倒它

跑在自家電腦上:

Fuyu AI 的 Python Code你可以跑在google Colab，或是你家的電腦上，顯卡記憶體要有8GB以上，以下為兩個用例的程式碼，十分簡潔，更多應用相關的資訊可以參考免費底下的免費聊天諮詢連結。

讓Fuyu幫你的圖片產生標題與說明

from transformers import FuyuProcessor, FuyuForCausalLM
from PIL import Image

# load model and processor
model_id = "adept/fuyu-8b"
processor = FuyuProcessor.from_pretrained(model_id)
model = FuyuForCausalLM.from_pretrained(model_id, device_map="cuda:0")

# prepare inputs for the model
text_prompt = "Generate a coco-style caption.\n"
image_path = "bus.png"  # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/bus.png
image = Image.open(image_path)

inputs = processor(text=text_prompt, images=image, return_tensors="pt")
for k, v in inputs.items():
    inputs[k] = v.to("cuda:0")

# autoregressively generate text
generation_output = model.generate(**inputs, max_new_tokens=7)
generation_text = processor.batch_decode(generation_output[:, -7:], skip_special_tokens=True)
assert generation_text == ['A bus parked on the side of a road.']

注意：該令牌是圖像補丁嵌入的佔位符令牌，因此它將顯示在模型上下文中（例如，在表示模型上下文 |SPEAKER|的部分中）。是「影像換行符」標記，表示影像區塊的光柵掃描順序輸入中的新行。是「答案的開始」標記。generation_output|NEWLINE|\x04

讓Fuyu幫你針對圖片回答問題

text_prompt = "What color is the bus?\n"
image_path = "bus.png"  # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/bus.png
image_pil = Image.open(image_path)

model_inputs = processor(text=text_prompt, images=[image_pil], device="cuda:0")
for k, v in model_inputs.items():
    model_inputs[k] = v.to("cuda:0")

generation_output = model.generate(**model_inputs, max_new_tokens=6)
generation_text = processor.batch_decode(generation_output[:, -6:], skip_special_tokens=True)
assert generation_text == ["The bus is blue.\n"]


text_prompt = "What is the highest life expectancy at birth of male?\n"
image_path = "chart.png"  # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/chart.png
image_pil = Image.open(image_path)

model_inputs = processor(text=text_prompt, images=[image_pil], device="cuda:0")
for k, v in model_inputs.items():
    model_inputs[k] = v.to("cuda:0")

generation_output = model.generate(**model_inputs, max_new_tokens=16)
generation_text = processor.batch_decode(generation_output[:, -16:], skip_special_tokens=True)
assert generation_text == ["The life expectancy at birth of males in 2018 is 80.7.\n"]

為了獲得最佳性能，建議以結束問題\n，如上所示！

Finetune:

@2023/10/24

ArthurZ在四天前允諾大家會盡快分享Finetune 程式出來，如果有最新的Script，會更新，並且放連結上來。

等不及要開始使用Fuyu Model Finetune自己專屬的智能助理了嗎?

心得:

多模態的資料，無論是1D的聲音還是2D的圖片，抑或是3D的影片，或是4D的全息影片，估計在不久的未來，都能夠被Transformer Model拿去做訓練，這樣機器人會更容易做到人類能夠做到的事情，並且可以不眠不休地幫人類解決一些重複單調的工作，也能給人類許多靈感與建議，但是前提是你要會用。現階段，我給大家的建議就是不要去害怕AI，甚至要去擁抱AI，AI可以最大化的豐富你的認知與創造力，也能讓你在短時間內獲得一整間公司的戰力，這樣無論想做甚麼，都不會有像以前一樣這麼高的門檻了。

引用:

@misc{fuyu-8b,
  author = {Bavishi, Rohan and Elsen, Erich and Hawthorne, Curtis and Nye, Maxwell and Odena, Augustus and Somani, Arushi and  Ta\c{s}\i{}rlar, Sa\u{g}nak},
  title = {Introducing our Multimodal Models},
  url = {https://www.adept.ai/blog/fuyu-8b},
  year = {2023}
}