訓練一個專屬於自己的守護神有其重要性,可以幫你個性化的解決問題,例如,如果上班經常需要解讀公司的資產負債表,則你可以利用Fuyu專門的去學習如何分析資產負債表,把你手邊有的案例都讓他學習一遍,這樣未來可以解放雙手,輕鬆上班完成任務。假設你是公務員常常寫公文,公文具有隱密性不可上傳到外部Chatgpt,你可以訓練自己的守護神避免資料外,同時又能基於許多圖片與資料,快速的產生公文。要解決這些上班重複性工作,你會需要備份平常上班作業的內容,然後整理成資料給AI去學,這時候就會需要一個輕量化又足夠強的Model。
Fuyu 8B 是目前少數開源且功能強大的全能性模型,它不只可以回答文字問題,還能夠看圖回答問題,它的Transformer編碼器可以兼容圖片與文字,在解碼器那端則是以文字為主,如下圖。這樣的架構加上大量的訓練資料集與80億(8GB @ 8bit 取樣)的參數量,可以讓模型取得很好的看圖說故事/分析/回答問題的能力。Fuyu的部落格網頁上展示了許多用例,底下會幫大家整理,未來可以結合GOOGLE地圖,你可以拍給它你目前的所在圖片,讓它能更精準地知道你的位置,避免因為GPS不靈光導致的誤判,也能夠輔助你回覆一封圖文並茂的電子郵件,總之,應用場合充滿無限的想像空間。
Fuyu可以幫忙寫圖片的說明文字,也可以問它與圖片內容相關的問題,並且給予建議,這樣一來,每天要交給老闆的報告摘要與分析,都可以讓Fuyu來快速輔助完成,也能夠自動的標記與圖片相符合的文字,這樣撰寫論文會方便許多。
Fuyu也可以從複雜的圖片內容中總結出結果,表現非常令人驚嘆,圖中把演員與參演的戲劇做成連連看的圖表,你可以問Fuyu某位演員總共餐與多少戲劇!
當然簡單的從圖中擷取關鍵數據,也難不倒它,從圖片中挖數據的能力,在將來可能會決定你是能找到一份工作,這個功能解決了許多老闆的痛點!
令人驚訝的是Fuyu可以從複雜的海報,以及老舊的PDF中挖取訊息,還能讀懂生物鏈與圖片的形狀分類!
Fuyu AI 的 Python Code你可以跑在google Colab,或是你家的電腦上,顯卡記憶體要有8GB以上,以下為兩個用例的程式碼,十分簡潔,更多應用相關的資訊可以參考免費底下的免費聊天諮詢連結。
from transformers import FuyuProcessor, FuyuForCausalLM
from PIL import Image
# load model and processor
model_id = "adept/fuyu-8b"
processor = FuyuProcessor.from_pretrained(model_id)
model = FuyuForCausalLM.from_pretrained(model_id, device_map="cuda:0")
# prepare inputs for the model
text_prompt = "Generate a coco-style caption.\n"
image_path = "bus.png" # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/bus.png
image = Image.open(image_path)
inputs = processor(text=text_prompt, images=image, return_tensors="pt")
for k, v in inputs.items():
inputs[k] = v.to("cuda:0")
# autoregressively generate text
generation_output = model.generate(**inputs, max_new_tokens=7)
generation_text = processor.batch_decode(generation_output[:, -7:], skip_special_tokens=True)
assert generation_text == ['A bus parked on the side of a road.']
注意:該令牌是圖像補丁嵌入的佔位符令牌,因此它將顯示在模型上下文中(例如,在表示模型上下文 |SPEAKER|
的部分中)。是「影像換行符」標記,表示影像區塊的光柵掃描順序輸入中的新行。 是「答案的開始」標記。generation_output|NEWLINE|\x04
text_prompt = "What color is the bus?\n"
image_path = "bus.png" # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/bus.png
image_pil = Image.open(image_path)
model_inputs = processor(text=text_prompt, images=[image_pil], device="cuda:0")
for k, v in model_inputs.items():
model_inputs[k] = v.to("cuda:0")
generation_output = model.generate(**model_inputs, max_new_tokens=6)
generation_text = processor.batch_decode(generation_output[:, -6:], skip_special_tokens=True)
assert generation_text == ["The bus is blue.\n"]
text_prompt = "What is the highest life expectancy at birth of male?\n"
image_path = "chart.png" # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/chart.png
image_pil = Image.open(image_path)
model_inputs = processor(text=text_prompt, images=[image_pil], device="cuda:0")
for k, v in model_inputs.items():
model_inputs[k] = v.to("cuda:0")
generation_output = model.generate(**model_inputs, max_new_tokens=16)
generation_text = processor.batch_decode(generation_output[:, -16:], skip_special_tokens=True)
assert generation_text == ["The life expectancy at birth of males in 2018 is 80.7.\n"]
為了獲得最佳性能,建議以 結束問題\n
,如上所示!
@2023/10/24
ArthurZ在四天前允諾大家會盡快分享Finetune 程式出來,如果有最新的Script,會更新,並且放連結上來。
多模態的資料,無論是1D的聲音還是2D的圖片,抑或是3D的影片,或是4D的全息影片,估計在不久的未來,都能夠被Transformer Model拿去做訓練,這樣機器人會更容易做到人類能夠做到的事情,並且可以不眠不休地幫人類解決一些重複單調的工作,也能給人類許多靈感與建議,但是前提是你要會用。現階段,我給大家的建議就是不要去害怕AI,甚至要去擁抱AI,AI可以最大化的豐富你的認知與創造力,也能讓你在短時間內獲得一整間公司的戰力,這樣無論想做甚麼,都不會有像以前一樣這麼高的門檻了。
@misc{fuyu-8b,
author = {Bavishi, Rohan and Elsen, Erich and Hawthorne, Curtis and Nye, Maxwell and Odena, Augustus and Somani, Arushi and Ta\c{s}\i{}rlar, Sa\u{g}nak},
title = {Introducing our Multimodal Models},
url = {https://www.adept.ai/blog/fuyu-8b},
year = {2023}
}
本課程早鳥20人已全數招收完畢,感謝支持,不另外招生。
如果你對 AI 充滿熱情,又不想浪費時間,歡迎點擊連結參加免費諮詢,請點擊以下連結預約時間,跟我聊聊你對於目前人工智慧的看法,還有其他想法上變得交流。請準時參加,否則會取消後續參加資格。
https://calendly.com/universe_ai/free_appointment