萬能智慧助理讓您錢多事少-使用Fuyu-8b 模型

更新於 發佈於 閱讀時間約 10 分鐘

前言:

訓練一個專屬於自己的守護神有其重要性,可以幫你個性化的解決問題,例如,如果上班經常需要解讀公司的資產負債表,則你可以利用Fuyu專門的去學習如何分析資產負債表,把你手邊有的案例都讓他學習一遍,這樣未來可以解放雙手,輕鬆上班完成任務。假設你是公務員常常寫公文,公文具有隱密性不可上傳到外部Chatgpt,你可以訓練自己的守護神避免資料外,同時又能基於許多圖片與資料,快速的產生公文。要解決這些上班重複性工作,你會需要備份平常上班作業的內容,然後整理成資料給AI去學,這時候就會需要一個輕量化又足夠強的Model。

Fuyu 8B 是目前少數開源且功能強大的全能性模型,它不只可以回答文字問題,還能夠看圖回答問題,它的Transformer編碼器可以兼容圖片與文字,在解碼器那端則是以文字為主,如下圖。這樣的架構加上大量的訓練資料集與80億(8GB @ 8bit 取樣)的參數量,可以讓模型取得很好的看圖說故事/分析/回答問題的能力。Fuyu的部落格網頁上展示了許多用例,底下會幫大家整理,未來可以結合GOOGLE地圖,你可以拍給它你目前的所在圖片,讓它能更精準地知道你的位置,避免因為GPS不靈光導致的誤判,也能夠輔助你回覆一封圖文並茂的電子郵件,總之,應用場合充滿無限的想像空間。

VIT和LLM的結合,期待未來能結合各種輸入,如影片,錄音檔,這樣Model能夠更萬用

VIT和LLM的結合,期待未來能結合各種輸入,如影片,錄音檔,這樣Model能夠更萬用

看圖回答各種問題:

Fuyu可以幫忙寫圖片的說明文字,也可以問它與圖片內容相關的問題,並且給予建議,這樣一來,每天要交給老闆的報告摘要與分析,都可以讓Fuyu來快速輔助完成,也能夠自動的標記與圖片相符合的文字,這樣撰寫論文會方便許多。

Fuyu 讓我們看到人工智能將來與人類合作並肩作戰的潛力

Fuyu 讓我們看到人工智能將來與人類合作並肩作戰的潛力

Fuyu也可以從複雜的圖片內容中總結出結果,表現非常令人驚嘆,圖中把演員與參演的戲劇做成連連看的圖表,你可以問Fuyu某位演員總共餐與多少戲劇!

圖片連連看,這種複雜圖形,也能從中總結出結果

圖片連連看,這種複雜圖形,也能從中總結出結果

當然簡單的從圖中擷取關鍵數據,也難不倒它,從圖片中挖數據的能力,在將來可能會決定你是能找到一份工作,這個功能解決了許多老闆的痛點!

以後從PNG圖表裡面要抓取完整的CSV數據表格,將不會再是困難的事情

以後從PNG圖表裡面要抓取完整的CSV數據表格,將不會再是困難的事情

令人驚訝的是Fuyu可以從複雜的海報,以及老舊的PDF中挖取訊息,還能讀懂生物鏈與圖片的形狀分類!

各種複雜文本可以請人工智慧總結完並且核對正確性以後,我們再進行閱讀,可以節省不少時間

各種複雜文本可以請人工智慧總結完並且核對正確性以後,我們再進行閱讀,可以節省不少時間

複雜圖形問題與食物鏈問題,Fuyu也能駕輕就熟,以後考試也難不倒它

複雜圖形問題與食物鏈問題,Fuyu也能駕輕就熟,以後考試也難不倒它

跑在自家電腦上:

Fuyu AI 的 Python Code你可以跑在google Colab,或是你家的電腦上,顯卡記憶體要有8GB以上,以下為兩個用例的程式碼,十分簡潔,更多應用相關的資訊可以參考免費底下的免費聊天諮詢連結。

讓Fuyu幫你的圖片產生標題與說明

from transformers import FuyuProcessor, FuyuForCausalLM
from PIL import Image

# load model and processor
model_id = "adept/fuyu-8b"
processor = FuyuProcessor.from_pretrained(model_id)
model = FuyuForCausalLM.from_pretrained(model_id, device_map="cuda:0")

# prepare inputs for the model
text_prompt = "Generate a coco-style caption.\n"
image_path = "bus.png" # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/bus.png
image = Image.open(image_path)

inputs = processor(text=text_prompt, images=image, return_tensors="pt")
for k, v in inputs.items():
inputs[k] = v.to("cuda:0")

# autoregressively generate text
generation_output = model.generate(**inputs, max_new_tokens=7)
generation_text = processor.batch_decode(generation_output[:, -7:], skip_special_tokens=True)
assert generation_text == ['A bus parked on the side of a road.']

注意:該令牌是圖像補丁嵌入的佔位符令牌,因此它將顯示在模型上下文中(例如,在表示模型上下文 |SPEAKER|的部分中)。是「影像換行符」標記,表示影像區塊的光柵掃描順序輸入中的新行。 是「答案的開始」標記。generation_output|NEWLINE|\x04

讓Fuyu幫你針對圖片回答問題

text_prompt = "What color is the bus?\n"
image_path = "bus.png" # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/bus.png
image_pil = Image.open(image_path)

model_inputs = processor(text=text_prompt, images=[image_pil], device="cuda:0")
for k, v in model_inputs.items():
model_inputs[k] = v.to("cuda:0")

generation_output = model.generate(**model_inputs, max_new_tokens=6)
generation_text = processor.batch_decode(generation_output[:, -6:], skip_special_tokens=True)
assert generation_text == ["The bus is blue.\n"]


text_prompt = "What is the highest life expectancy at birth of male?\n"
image_path = "chart.png" # https://huggingface.co/adept-hf-collab/fuyu-8b/blob/main/chart.png
image_pil = Image.open(image_path)

model_inputs = processor(text=text_prompt, images=[image_pil], device="cuda:0")
for k, v in model_inputs.items():
model_inputs[k] = v.to("cuda:0")

generation_output = model.generate(**model_inputs, max_new_tokens=16)
generation_text = processor.batch_decode(generation_output[:, -16:], skip_special_tokens=True)
assert generation_text == ["The life expectancy at birth of males in 2018 is 80.7.\n"]

為了獲得最佳性能,建議以 結束問題\n,如上所示!

Finetune:

@2023/10/24

ArthurZ在四天前允諾大家會盡快分享Finetune 程式出來,如果有最新的Script,會更新,並且放連結上來。

等不及要開始使用Fuyu Model Finetune自己專屬的智能助理了嗎?

等不及要開始使用Fuyu Model Finetune自己專屬的智能助理了嗎?

心得:

多模態的資料,無論是1D的聲音還是2D的圖片,抑或是3D的影片,或是4D的全息影片,估計在不久的未來,都能夠被Transformer Model拿去做訓練,這樣機器人會更容易做到人類能夠做到的事情,並且可以不眠不休地幫人類解決一些重複單調的工作,也能給人類許多靈感與建議,但是前提是你要會用。現階段,我給大家的建議就是不要去害怕AI,甚至要去擁抱AI,AI可以最大化的豐富你的認知與創造力,也能讓你在短時間內獲得一整間公司的戰力,這樣無論想做甚麼,都不會有像以前一樣這麼高的門檻了。

引用:

@misc{fuyu-8b,
author = {Bavishi, Rohan and Elsen, Erich and Hawthorne, Curtis and Nye, Maxwell and Odena, Augustus and Somani, Arushi and Ta\c{s}\i{}rlar, Sa\u{g}nak},
title = {Introducing our Multimodal Models},
url = {https://www.adept.ai/blog/fuyu-8b},
year = {2023}
}

廣告:

本課程早鳥20人已全數招收完畢,感謝支持,不另外招生。

如果你對 AI 充滿熱情,又不想浪費時間,歡迎點擊連結參加免費諮詢,請點擊以下連結預約時間,跟我聊聊你對於目前人工智慧的看法,還有其他想法上變得交流。請準時參加,否則會取消後續參加資格。

 https://calendly.com/universe_ai/free_appointment




avatar-img
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
每天有這麼多的金融數據在變化著,做為一個非全職投資人,要如何同時間掌握這麼多經濟數據與新聞報導,替投資理財做下相對正確的判斷,這時候你會需要自己的投資守護神語言模型,藉由新聞與訊息的整理爬蟲,導入自行訓練的守護神語言模型,讓他每天定時產生社論與投資建議,藉由Email 送出來給您參考,省去你不少時間
大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
每天有這麼多的金融數據在變化著,做為一個非全職投資人,要如何同時間掌握這麼多經濟數據與新聞報導,替投資理財做下相對正確的判斷,這時候你會需要自己的投資守護神語言模型,藉由新聞與訊息的整理爬蟲,導入自行訓練的守護神語言模型,讓他每天定時產生社論與投資建議,藉由Email 送出來給您參考,省去你不少時間
大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
本篇參與的主題活動
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在這個AI科技日新月異的時代,快速掌握AI技術,讓你有更多時間享受生活。聊天機器人不僅能處理重複性任務,還可以提高客戶互動品質,簡直是工作中的神助手。文章介紹了聊天機器人的功能及推薦資源,充滿實用的技巧,值得在工作中試試看,讓這些AI工具成為你的好助手!
Thumbnail
Tengr.ai 圖生圖 咒語:Pick up Robot
Thumbnail
大部分就是他代替我工作GPT AI真的可以取代人類的任何工作
Thumbnail
今天好奇,試看看,AI可以不可以運用一張角色圖,編織一個故事大綱。 我輸入了: 使用這個角色,說出一個關於他的故事。 結果Bing 出現了下列的故事大綱: 這是一個關於一位勇敢的美人魚守護者的故事。 在深海的某個隱秘角落,有一座古老的水下城市,名為阿奎亞。這座城市由一個強大的神器保
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
我夢見進入法鼓山 AI 專案,成為團隊一員。我登錄一個平台,開始針對各種案例測試抓蟲。 我的責任是開出測試案例,問 AI 各種關於佛法的問題,檢測 AI 回覆的正確性。 AI 回答得相當好,師姐們看到這些回覆,都以為是我回答。我說「不是喔!這些都是 AI 的回答呢!」 我繼續輸入問題,讓 AI
Thumbnail
嗨,我是tzu 開課到現在快兩個月了,這個月最大的挑戰是: !!! 個人專案 !!!! 每天都被各種bug折磨到心力憔悴🥲 我的個專---「主動 」與你互動的ai女友。 以下是流程圖 主要透過unity 與 azure ai - gpt 3.5 串聯,搭配webcam偵測使用者的動作
Thumbnail
在工作中,您常會有需要處理繁雜事項的困擾嗎? 希望能有提高工作效率甚至收益的工具嗎? GeniAltX是一款生成式AI對話機器人,這款生成式AI機器人能做到高品質回覆、極高標準的資安防護、多平臺串接等功能,讓你輕鬆管理所有渠道訊息,立即了解AI機器人能如何幫助你提升工作效率!
Thumbnail
有認真的朋友偷偷問我說,他看了我的教學後,也想用Midjourney自創角色,但對於形象概念暫時沒什麼想法,而且英文也不太好,很多服飾、髮型單字都不懂,該怎麼辦呢? 要生成虛擬角色,我們只要以下prompt模板丟給Claude,就可請它幫忙生成多種不同造型風格的角色敘述了。
Thumbnail
OpenAI 正在開发兩種類型的 AI 助手,這些軟體將協助完成原本由人類執行的任務,而無須人類密切監督。其中一種類型的 AI 代理人可以透過接管使用者的設備來自動化某些複雜任務,例如 ChatGPT 助理將數據從文檔轉移到電子表格或填寫費用報告並將它們輸入到會計軟體中。此類 AI 助理將需要使用者
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在這個AI科技日新月異的時代,快速掌握AI技術,讓你有更多時間享受生活。聊天機器人不僅能處理重複性任務,還可以提高客戶互動品質,簡直是工作中的神助手。文章介紹了聊天機器人的功能及推薦資源,充滿實用的技巧,值得在工作中試試看,讓這些AI工具成為你的好助手!
Thumbnail
Tengr.ai 圖生圖 咒語:Pick up Robot
Thumbnail
大部分就是他代替我工作GPT AI真的可以取代人類的任何工作
Thumbnail
今天好奇,試看看,AI可以不可以運用一張角色圖,編織一個故事大綱。 我輸入了: 使用這個角色,說出一個關於他的故事。 結果Bing 出現了下列的故事大綱: 這是一個關於一位勇敢的美人魚守護者的故事。 在深海的某個隱秘角落,有一座古老的水下城市,名為阿奎亞。這座城市由一個強大的神器保
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
我夢見進入法鼓山 AI 專案,成為團隊一員。我登錄一個平台,開始針對各種案例測試抓蟲。 我的責任是開出測試案例,問 AI 各種關於佛法的問題,檢測 AI 回覆的正確性。 AI 回答得相當好,師姐們看到這些回覆,都以為是我回答。我說「不是喔!這些都是 AI 的回答呢!」 我繼續輸入問題,讓 AI
Thumbnail
嗨,我是tzu 開課到現在快兩個月了,這個月最大的挑戰是: !!! 個人專案 !!!! 每天都被各種bug折磨到心力憔悴🥲 我的個專---「主動 」與你互動的ai女友。 以下是流程圖 主要透過unity 與 azure ai - gpt 3.5 串聯,搭配webcam偵測使用者的動作
Thumbnail
在工作中,您常會有需要處理繁雜事項的困擾嗎? 希望能有提高工作效率甚至收益的工具嗎? GeniAltX是一款生成式AI對話機器人,這款生成式AI機器人能做到高品質回覆、極高標準的資安防護、多平臺串接等功能,讓你輕鬆管理所有渠道訊息,立即了解AI機器人能如何幫助你提升工作效率!
Thumbnail
有認真的朋友偷偷問我說,他看了我的教學後,也想用Midjourney自創角色,但對於形象概念暫時沒什麼想法,而且英文也不太好,很多服飾、髮型單字都不懂,該怎麼辦呢? 要生成虛擬角色,我們只要以下prompt模板丟給Claude,就可請它幫忙生成多種不同造型風格的角色敘述了。
Thumbnail
OpenAI 正在開发兩種類型的 AI 助手,這些軟體將協助完成原本由人類執行的任務,而無須人類密切監督。其中一種類型的 AI 代理人可以透過接管使用者的設備來自動化某些複雜任務,例如 ChatGPT 助理將數據從文檔轉移到電子表格或填寫費用報告並將它們輸入到會計軟體中。此類 AI 助理將需要使用者