發揮o3模型強大的圖片理解與推論能力
陸續有分享指出o3的圖片理解能力不錯。
於是我試著運用在影片AI的提示詞生成上。
這篇會實測ChatGPT寫的提示詞,在各家影片AI的效果如何?包含:
Luma、Sora、Leonardo motion、Hailuo、Kling
▋影片AI的提示詞撰寫一直都是個門檻
難在2個地方:
1.英語提示詞
大多影片AI提示詞只接受英語,這對非母語者的我們來說,使用起來相當痛苦。
以前StableDiffusion這類的繪圖AI,要多記英文單字也就罷了。寫個1 girl,black dress,long hair,looking at view,這種國中生程度的英文也能生出些很棒的作品。
但影片AI完全行不通,需要描述一個完整的動作或劇情,就要寫成句子,整篇下來像是寫英文作文。想當初雖為建中學霸,但大學指考英文手寫題滿分28分,只拿了8分的我表示:...(根本輪迴業障)
2.無拍攝專業知識
繪圖AI的時代,若具備攝影知識,下prompt時就能增強畫面的表現力。例如:什麼是Cowboy shot(切到臀部的半身像)、什麼是Dutch angle(人物斜對角鏡頭)。擁有拍攝知識的人擁有更強的AI的控制能力。
而影片AI的時代,這個差距會進一步的擴大,因為要控制的變數更多了。要怎麼運鏡?怎麼描述動作?光怎麼打?怎麼走位?就我目前觀察,文字AI和繪圖AI這種領域,新的專家如雨後春筍已滿街是。但影片AI領域的專家相對稀少很多,而大多本來就是剪輯攝影相關專業。
▋用ChatGPT-o3降低門檻的方法
我找到一份很棒的影片AI資料,
是HailuoAI的官方教學文檔(連結放留言區)。
做法就是:
「把文檔內容當作ChatGPT的提示詞。」
因為寫得很詳細,還有附範例。
完全符合few-shot prompt的需要。
以下示範img to video的用法。
準備好你的圖,上傳給ChatGPT並使用以下的提示詞:
「依照以下 # 描述規則 和 # 參考範例 生動的描述這張圖片
{女孩放下手轉身後雙唇緊閉的微笑(這裡可替換成你的需要)}。
# 輸出
"""
1.先用英語描述後,用繁體中文翻譯。
2.給我2個提案。
"""
# 描述規則
"""
Precise Prompt Formula= 1.Main Subject in the first frame + 2.Motion/Change +3.Camera Movement + 4.Aesthetic Atmosphere
1.Main Subject in the first frame:The objects in the scene, including key details and environmental information, are precisely recognized by Hailuo AI, which can identify characters, objects, and other visual elements in the image and generate videos based on the prompt requirements.
2.Motion/ Change:Motion is the description of the main object's moving status in the video, such as stillness, movement; the transformation of the environment and space, and so on.
3.Camera Movement:Image-to-video generation can also precisely control camera movements. Using the information in the image as a reference in the prompt can lead to more accurate results.
4.Aesthetic Atmosphere:Although the first frame establishes the visual tone and atmosphere of the video's beginning, Hailuo AI's image-to-video generation can still adjust the visual aesthetics and mood to produce content that better aligns with expectations.
"""
# 參考範例
"""
1.A cat in the scene runs quickly toward the camera, with white electric sparks emanating from its eyes. Its entire body becomes surrounded by electricity as it runs faster and faster. The scenery on both sides rushes backward rapidly, creating motion blur that transforms into a glowing white time tunnel.
2.The camera pulls back as a man runs toward it. Shadows of figures rapidly close in from behind, growing larger and larger. As one shadow draws near, it reveals a humanoid creature with a goat-like face, its features illuminated by a yellowish light. The color tone of the scene shifts to an eerie palette, creating a chilling and terrifying atmosphere.
"""
」
最後生成出來的提示詞就可以連同圖片丟給繪圖AI了。
▋實測結果
結果剪成了影片方便大家快速比較。
圖片是動畫《俺の妹がこんなに可愛いわけがない》的女主角。
(我這世代宅男的國民妹妹)

簡單介紹和講一下心得:
1.Luma:應該是目前最昂貴的影片AI,非專業人士請勿輕易嘗試。
轉身的動作很順暢自然,表情也很生動。
可惜日系人物畫風會跑掉,
應該是跟訓練資料偏歐美畫風造成的。
2.Sora:OpenAI的影片AI,目前弱弱的,不排除在憋大招。
習慣性的人物的臉部、手部、姿勢會崩壞。
偶爾不崩壞的時候動作也很微幅。
目前不堪用。
3.Leonardo motion:繪圖AI網站推出的新服務,便宜好用。
對二次元角色的畫風維持能力很好。
可惜動作有點偏慢動作。
靠剪輯兩倍速快轉會好很多。
4.Hailuo:CP值很好,在台灣有辦很多社群活動。
動作算順暢但幅度偏小,
提示詞遵守能力中下。
運氣運氣的,有時候一次生個10隻影片,
會突然有一個很棒的。
5.Kling:目前中文圈的影片AI社群公認的王者
特別是2.0版本已直接海放其他AI。
實測只用了1.6版本感覺已經比其他強很多。
(要用上2.0的話就是降維打擊了)
轉身順暢、畫風穩定度高。
不愧是中國產的影片AI
(版權觀念是AI發展的絆腳石可能是真的...)
以上。