我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
GPT-4 帶視覺能力之 GPT-4V 可以通過 OpenAI API 分析我們提交的圖像,我們已經生成了一些具有高度發散性的自然語言處理語意聯想和電腦視覺圖像,但是 GPT-4V 能夠辨識並描述它們嗎,以下展開實驗:
from openai import OpenAI
client = OpenAI()
vmodel = "gpt-4-vision-preview
response = client.chat.completions.create(model = vmodel,
messages = [{"role": "user",
"content":[{"type": "text", "text": "What’s in this image?"},
{"type": "image_url", "image_url":{"url": "https://raw.githubusercontent.com/Denis2054/Transformers_3rd_Edition/master/Chapter16/dog.png"}}]}],
max_tokens = 300)
視覺化堆疊為:




















