AIGC Weekly #76 新一輪小規模技術爆發

閱讀時間約 24 分鐘

上週精選✦

蘋果與Open AI 合作在ios 18 提供AI服務

上週蘋果的WWDC24靴子終於落地,iOS 18將非常深入的整合AI能力,AI能力更新主要包含在Siri、寫作助手以及圖像生成三個部分

  • Siri 利用Apple Intelligence 實現全新超能力。憑藉全新的設計、更豐富的語言理解能力以及隨時輸入Siri 的能力,與Siri 的交流比以往任何時候都更加自然。
    • Siri 採用全新設計,與系統體驗更加深度融合,優雅的光芒環繞螢幕邊緣。
    • 只要雙擊iPhone 或iPad 螢幕底部,不想大聲說話時,可以從系統中的任何位置輸入內容給Siri 。
    • 利用Siri 掌握的有關你設備功能和設定的廣泛產品知識。學習如何在iPhone、iPad 和Mac 上做新事情時,可以提出問題,Siri 可以快速提供逐步指導。
    • Apple Intelligence 為Siri 提供了螢幕感知功能,因此它可以理解螢幕上的內容並採取行動。
    • 了解您的個人背景使Siri 能夠以您獨特的方式為您提供幫助。 Siri 可以利用其對設備上資訊的了解來幫助找到所需資訊。
    • 使用Siri在應用程式內和應用程式間無縫執行操作。
  • Apple Intelligence 為新的寫作工具提供支持,可幫助你在寫作時隨時隨地找到合適的字詞。借助增強的語言功能,可以在幾秒鐘內總結整個講座,獲取較長的群組討論的簡短版本。
    • 可以校對文字、重寫不同版本直到語氣和措辭恰到好處,並且只需輕點一下即可總結所選文字。
    • 優先通知顯示在卡片頂部,一眼就知道需要注意什麼。通知會匯總,以便您可以更快地瀏覽它們。
    • 郵件中的優先訊息會將時間敏感的訊息提升到收件匣的頂部- 例如今天截止的邀請或今天下午航班的登機提醒。點按即可在郵件應用程式中顯示長電子郵件的摘要,直奔主題。您也可以直接從收件匣中查看電子郵件摘要。
    • 只需在Notes 或Phone 應用中點擊錄製即可錄製音訊和文字記錄。 Apple Intelligence 會產生文字記錄摘要,一眼便可了解最重要的資訊。
    • 使用郵件中的智慧回覆功能,快速起草包含所有正確詳細資訊的電子郵件回覆。
  • Apple Intelligence 讓你以全新的方式用視覺表達自我。創造有趣、原始的圖像和全新的Genmoji。使用Image Wand 將草圖變成與筆記相得益彰的相關圖像。
    • 借助應用程式中的Image Playground體驗,只需幾秒鐘即可製作有趣的原創圖像。根據描述、建議的概念,甚至是照片庫中的人物,創造全新的圖像。
    • 在專用的Image Playground 應用程式中嘗試不同的概念並嘗試動畫、插圖和草圖等圖像樣式。建立自訂圖像以在其他應用程式或社交媒體上與朋友分享。
    • 直接在鍵盤上製作全新的Genmoji,以配合任何對話。提供描述以查看預覽,並調整描述直到完美。
    • Image Wand可以將你的草圖轉換為Notes 應用程式中的相關影像。使用手指或Apple Pencil 在你的草圖周圍畫一個圓圈,Image Wand 會分析周圍的內容以產生互補的視覺效果。
    • 輸入描述,Apple Intelligence 會找到最匹配的照片和影片。然後,它會根據識別的主題,用獨特的章節製作故事情節,並將照片排列成具有自己敘事弧線的影片。
    • 使用照片應用中的清理工具去除照片中的干擾物。 Apple Intelligence 可辨識背景物體,需輕觸即可移除,可拍出完美的照片,同時保留原始影像。

蘋果也發布了一篇內容介紹了一下他們的LLM 部署方案,主要有三層結構組成:

  • 設備端LLM推理:未來的iOS版本將包含一個小型低延遲的AI模型(30億參數),它能夠理解用戶命令、當前螢幕並在應用程式上執行操作。該模型不僅能處理總結等簡單任務,還可以為Siri的“AI智能體”功能提供支持,例如處理需要打開和使用多個應用程序的用戶命令——比如“嘿Siri,叫一輛Uber到最近的Costco」。最重要的是,該模型運行在Apple Silicon晶片(如M系列晶片)上。
  • 私有雲運算:裝置端的大語言模型可能會將某些複雜任務卸載給Apple資料中心託管的更強大模型(稱為「私有雲運算」)。這些資料中心也將完全運作在Apple的M系列晶片上。傳輸的資料將完全加密和保護。伺服器由Apple自主製造。換句話說,Apple已經垂直整合了在裝置端和資料中心內運行AI所需的一切。
  • 第三方模型推理:使用者也可以透過Siri或某些iOS應用直接使用OpenAI的ChatGPT。請注意,這並不是用ChatGPT取代Siri——這是許多人對OpenAI合作的誤解。實際上,ChatGPT在特定情況下作為Apple模型的替代方案提供。例如,當使用者即將修訂電子郵件時,可以選擇ChatGPT的回應。

Open AI 也發布了一個公告介紹跟蘋果的合作

  • ChatGPT 整合功能會免費提供給ios 用戶,付費會員可以登入後使用付費功能。
  • 連文字改寫都用的ChatGPT,影像看起來都用的DALL-E。
  • Siri 也可以在需要時呼叫ChatGPT 的智慧。調用需要用戶同意。
  • 使用者無需在不同工具之間切換即可使用ChatGPT 的功能,包括影像和文件理解。

Luma 發布影片生成模型Dream Machine

上週最大的黑馬內容就是Luma AI發布了Dream Machine影片生成模型,圖生影片的表現相當驚艷,絕對是電影級表現。解析度、運動幅度、美學表現都是非常牛批,同時立刻向所有人開放了免費試用。

發布之後社區也很快玩了起來,除了用AI生成的圖片生成視頻之外,用已有的表情包圖片生成的視頻也都很生動和搞笑,比如這個著名的奧斯卡合照圖片

也有很多很好的短片,像是這個美少女混剪可愛怪物動畫

我自己的跑了一些測試,總結了一些發現的要點:

  • Luma 文生影片的品質不如可靈,基本上不可用。
  • 圖生影片很令人驚喜,一致性,運動幅度都很好。
  • 它可以補充畫面沒有的內容,同時已有的風格和內容依然可以保證一致。
  • 與可靈類似的是,如果是模型不理解的概念,即使圖生視訊品質也很差。
  • 短提示詞效果很好,最好只說圖片中的運動內容在如何運動就好。

正面官方發布的視頻中也介紹了一下模型的特色和擅長的內容:

  • 產生的影片品質很高,解析度可達1024像素。
  • 能很好地理解提示並產生符合美學風格的影片。
  • 推理速度快,縮短了等待時間,有利於快速迭代創意。
  • 可以產生連貫的動作和運動,不像之前的模型那樣畫面靜止和慢動作。
  • 對物理和人物運動有很好的理解。
  • 在同一影片中,人物和物體能保持一致性。
  • 可以生成有趣的鏡頭運動,而不僅僅是靜止的角度。

找資料查了一下Luma AI的團隊成員背景確實都很離譜,創業天團了可能是:

  • Alex Yu:Luma AI的共同創辦人兼CTO,曾是UC Berkeley的AI研究員,專注於即時神經渲染和從單一影像生成3D模型的研究。
  • Amit Jain:Luma AI的共同創辦人兼CEO,曾在Apple工作,負責Vision Pro的多媒體體驗,專注於電腦視覺和產品設計。
  • Jiaming Song:Luma AI的首席科学家,曾在NVIDIA的生成式AI组工作,领导了扩散模型(如DDIM)的研究,这些模型显著提升了生成式AI的性能。
  • Matthew Tancik:Luma AI的應用研究團隊負責人,曾協助創建神經輻射場(NeRF),這是3D神經渲染領域的重要方法之一。
  • Angjoo Kanazawa:Luma AI的首席科學顧問,加州大學柏克萊分校電機工程與電腦科學系助理教授,研究方向為電腦視覺、電腦圖形學和機器學習,特別關注動態3D世界的視覺感知。

SD3 2B 模型開源

SD3的2B模型終於如約發布,但是發布完成測試後大家發現模型在人體生成以及躺著的人方面存在著非常嚴重的問題,同時模型對於短提示詞的響應也沒那麼好,引發了社區的議論。

我自己嘗試了一下跟社區測試的結果也差不多,如果提示詞寫好,避免人手的情況下圖片質量和提示詞理解都是在線的。

Stability AI 前CEO Emad確認了模型的這些問題基本上都是由於安全對齊引起的,DALL-E和谷歌的圖像模型都有類似的問題,不過由於SD3模型是開源的這些問題是可以被修復的,社區和SD3訓練者都在積極尋找修復的辦法。

另外在生態適配上社群進展也比較樂觀,Lora的訓練代碼已經發布,同時Instant團隊也發布了多個適配SD 3的ControlNet模型

另外這次SD3的開源是非商用的,而且關於模型微調部分條款也模糊不清,部署的時候需要注意。

SD3的優勢

  • 照片寫實主義:克服了手部和臉部常見的偽像,提供高品質影像,無需複雜的工作流程。
  • 提示遵循:理解涉及空間關係、構圖元素、動作和風格的複雜提示。
  • 排版:在DiT架構的幫助下,實現了生成文字而不產生偽影和拼字錯誤的前所未有的結果。
  • 資源利用效率高:由於其較低的VRAM 佔用,適合在標準消費級GPU 上運作而無效能降級。
  • Fine-Tuning:能夠吸收小數據集中的微妙細節,非常適合客製化。

模型文件主要由這幾部分組成

sd3_medium.safetensors 包括MMDiT 和VAE 權重,但不包括任何文字編碼器。

sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的權重,包括T5XXL 文字編碼器的fp8 版本,提供品質和資源需求之間的平衡。

sd3_medium_incl_clips.safetensors 包括所有必要的權重,除了T5XXL 文字編碼器。它需要最少的資源,但模型的性能將在沒有T5XXL 文字編碼器的情況下有所不同。

example_workfows 資料夾包含範例Comfyui的工作流程。

推薦參數

fofr 用SD3 產生的圖片看起來品質比較高,他也說了自己用的參數:28 steps, 3.5 CFG, 896x1088, 28 steps, sd3_medium_incl_clips_t5xxlfp8.safetensors,之前Emad 介紹的SD3 取樣器。

英偉達開源規模最大的LLM

英偉達開源了目前為止規模最大的大語言模型Nemotron-4 340B,主要目的是幫助開發人員用來合成資料訓練LLM。

Nemotron-4 340B 系列包括基礎、指導和獎勵三個模型權重,Base 模型在9 兆Token 的語料庫上預先訓練,有50 多種自然語言和40 多種程式語言。

經過了SFT、DPO、RPO三種對齊方式。

整個對齊過程中依賴約20K 個人工標註的數據,數據產生管線合成了用於監督微調和偏好微調(DPO 和RPO)的數據的98%以上。

模型可以商業化使用,而且可以自由創建和分發衍生模型。

Nemotron-4-340B-Instruct 是標準的僅解碼器Transformer,訓練時序列長度為4096 個標記,使用分組查詢注意力(GQA)和旋轉位置嵌入(RoPE)。

訓練花了768 DGX H100集群,每個集群包含8 H100 80GB SXM5 GPUs。

其他動態✦

  • Open AI 在微調API介面中加入了對tools參數的支援, 可以微調模型以進行平行函數調用
  • Abacus AI和Yann LeCunn團隊一起發布了一個LLM測試基準,測試集會不斷更新防止模型作弊,並且產出了第一期的排行
  • KREA AI上線了視訊放大和增強服務,試了一下還可以,有需求可以試試。
  • 在過去的六個月裡,OpenAI 的年度收入翻了一番,達到34億美元。收入幾乎全部直接來自於ChatGPT 和其他OpenAI 產品的銷售。
  • Open AI 董事會新成員是前美國國家安全局長,一輩子都在軍方供職。
  • 烏札德發布了Autodesigner 2.0 UI 生成方案。
  • 美圖發表會也發了一個DiT 影片模型,從示範效果來看還比較早期。同時推出了一個AI 影片編輯平台Moki
  • Midjourney 發布了自訂模型的能力會根據你日常讚和Tsak 選擇的圖片訓練一個經過你微調的模型。
  • Mistral AI 在B 輪融資中籌集了600 百萬歐元。 General Catalyst 領投了這輪融資,使公司估值達到60 億美元。
  • Open AI 認命了新的CFO 和CPO,凱文·韋爾(前Instagram 產品副總裁)將加入擔任首席產品官,而薩拉·弗萊爾(前NextDoor 首席執行官、前Square 首席財務官)將加入擔任首席財務官。

產品推薦✦

Apparate:讓圖片變成說話視頻

Proteus 0.1,即時視訊生成為您的AI 注入活力。 Proteus 可以大笑、饒舌、唱歌、眨眼、微笑、說話等等。只需一張圖片。

Mapify:AI 心智圖

Mapify(原名Chatmind)是一款AI 心智圖工具,能夠快速從各種格式的內容(如文字、網頁、影片、圖像、語音等)中提取關鍵訊息,並產生結構化的思維導圖,旨在提升用戶的生產力和創造力。

Mapify 整合了AI 對話功能,讓使用者可以在心智圖上與AI 進行交互,完成查詢、修改和擴展的操作。

AdCreative:AI 生成廣告創意

AdCreative.ai 是一個專注於廣告創意生成的AI 平台,它透過分析和機器學習,幫助使用者產生高轉換率的廣告創意。該平台擁有大量的廣告創意資料庫,能夠產生各種尺寸和類型的廣告素材,包括社群媒體貼文、影片廣告、產品拍攝等。用戶可以透過該平台提高廣告效果,降低設計成本,並且獲得對競爭對手廣告策略的洞察。 AdCreative.ai 提供不同等級的服務計劃,包括免費試用、新創公司、專業人士和代理商等,滿足不同規模使用者的需求。此外,該平台還提供了50% 的折扣優惠,以及針對企業客戶的客製化解決方案。

Deformity:AI 建立表單

Deformity.ai 提供了一個創新的表單創建平台,透過人工智慧技術,使用者可以快速製作出生動的對話式表單。這些表單能夠以多種語言與使用者互動,有助於全球化的客戶參與。平台支援多種功能,包括擷取客戶聯絡資訊、資格審查以篩選潛在客戶、收集客戶回饋以改善產品或服務、設計有趣的測驗以了解受眾群體、舉辦抽獎活動以提高參與度,以及進行研究以確保數據收集的品質。

Afforai:AI 文獻研究工具

Afforai 是一個為研究人員設計的AI 驅動的研究助理和聊天機器人,它提供了一系列工具來簡化研究流程。使用者可以透過Afforai Reference Manager 上傳和管理研究論文,使用Afforai Notebook 對論文進行註釋和筆記,以及利用Afforai Cite 管理引用和元資料。該平台支援多種文件格式,並提供了三種不同的搜尋模式,包括文件檢索模式、學術搜尋模式和Google搜尋模式,以幫助研究人員梳理和比較大量的文獻。

Recall:AI 驅動的內容收集工具

Recall 提供了一種新型的知識管理方法,它能夠自動總結用戶在線上遇到的各種內容,例如播客、YouTube 影片、新聞文章、PDF 等,並將其保存到用戶的知識庫中。這個知識庫不僅自動組織和分類內容,還透過知識圖譜技術幫助使用者發現資訊之間的聯繫,從而更深入地理解複雜主題。此外,Recall 還提供了間隔重複學習功能,幫助使用者更好地學習和記憶。

精選文章✦

那個團子和Stable Diffusion的1000天

詳細回顧了Dango233(團子)和huoju 在開源AI 社群的貢獻歷程。三年前,團子因為興趣加入了EleutherAI 的Discord 社區,開始接觸CLIP+VQGAN,並逐步參與到更深層次的圖像生成技術討論中。隨著時間的推移,他參與了多個項目,如Disco Diffusion 和Majesty Diffusion,並受邀加入StabilityAI 公司,該公司由Emad Mostaque 創立,致力於開源AI。團子在這個過程中也面臨了職業選擇的十字路口,最終選擇了參與Stable Diffusion 的開發,這一決定極大地改變了他的職業軌跡。

智變時代/ 全面理解機器智慧與生成式AI 加速的新工業革命

將溫故AI 發展波瀾壯闊的一年,試著抓住生成式AI 變革的本質,撥開喧囂與迷霧,追尋科技巨頭與AI 機構們在更高智能道路上的探索,以及變革會如何全面改變人機交互、世界的產業、經濟還有我們自己。

全文36000 字,共分五個章節:

  1. 模型- 競爭、泛化與變革的本質
  2. 應用- 智能代理、智能體與組織新形態
  3. 智變- 廉價誘導需求、從中心到邊緣算力、新工業革命
  4. 演化- 模型如何理解與演化、自主目標與自動化的AGI
  5. 選擇- 職業變遷、自我提升與科技恆大

生成式AI不會為你建立工程團隊

作者透過自己的經驗講述了軟體工程產業的成長和變化,指出軟體工程是一門學徒制的職業,需要透過實踐和時間來累積經驗。文章強調,儘管生成式AI 可以快速產生程式碼,但這些程式碼往往不可靠,需要經驗豐富的工程師進行審查和修改。

AI 產生的程式碼只是軟體工程中最容易的部分,而真正的挑戰在於理解、維護和操作這些程式碼。文章也討論了初級工程師在團隊中的價值,以及為什麼持續招募初級工程師對團隊和整個產業都是有益的。

儘管招募初級工程師需要時間和資源進行培訓,但這是一個值得的投資,因為它有助於培養未來的資深工程師,並保持團隊的多樣性和創新能力。最後,作者呼籲工程師和工程管理者要親自推動招募和培訓初級工程師的工作,以確保產業的持續發展和繁榮。

中間代碼的興起

探討了中間程式碼(Medium Code)在軟體開發中的興起,強調了人工智慧(AI)在加速中碼實踐中的作用,並認為中碼將是AI 原生軟體開發的未來。

  • 軟體並沒有消亡,反而有越來越多的人正在建立軟體。
  • 透過Dagster(資料編排工具),觀察到一類新的軟體開發人員的出現,如分析工程師和資料科學家,他們不是全端工程師,但仍然將關鍵任務程式碼部署到生產環境中。
  • 這類人員被稱為中間程式碼實踐者,他們透過更人性化的接口,更有效率地編寫更多的生產程式碼。

蘋果的人工智慧告訴我們什麼:實驗模型

Ethan Mollick 在內容中分享了一些關於蘋果AI(或稱為「蘋果智慧」)的初步看法。

雖然他沒有親自使用蘋果的AI,但他認為這次發布突出了當前AI 領域正在進行的四個模型的實驗:AI 模型、使用模型、商業模型和未來的心智模型。

在AI 使用模型方面,蘋果專注於讓AI 為用戶完成具體任務,而前沿AI 模型如Gemini 1.5 和GPT-4o 則更像是智能助手,能夠處理更廣泛的任務,但也可能出現意想不到的行為。在商業模型方面,蘋果可能會從免費服務開始,但未來可能會收費。

LLM能發明更好的方法來訓練LLM嗎?

Sakana AI 正在探索將自然演化中的最佳化概念應用於人工智慧領域,特別是在大型語言模型(LLMs)的培訓中。他們提出了一個名為 LLM²(LLM-squared)的自我改進過程,旨在利用LLMs 來自動化地發現和最佳化培訓LLMs 的演算法。 Sakana AI 的最新報告展示了他們使用LLMs 來合成新的偏好優化演算法的成果,並提出了一種名為 Discovered Preference Optimization(DiscoPOP)的演算法。

紅隊AI系統的挑戰

論了人工智慧(AI)系統的紅隊測試(red teaming)挑戰,總結了不同的紅隊測試方法,並強調了建立標準化實踐和政策建議的重要性。

文章指出了AI 領域缺乏標準化紅隊測試實踐的問題,並強調了需要建立這些實踐和標準的緊迫性。接著,文章詳細描述了多種紅隊測試方法,包括:

  • 領域特定的專家紅隊測試,涵蓋信任與安全政策漏洞測試、國家安全前沿威脅紅隊測試,以及多語言和多文化紅隊測試。
  • 使用語言模型進行紅隊測試,介紹了自動化紅隊測試的方法,透過模型之間的紅隊(攻擊)和藍隊(防禦)動態來提高系統的穩健性。
  • 在新模態中進行紅隊測試,特別是針對多模態AI 系統(如Claude 3)的測試,這些系統能夠處理圖像和文字等不同類型的輸入。
  • 開放式、通用的紅隊測試,包括眾包紅隊測試以及社區參與的紅隊測試,這些測試旨在發現一般性的傷害和系統限制。

重點研究✦

Hallo:復旦發布的開源版本EMO

透過輸入音訊讓臉部照片開始說話,並且有對於的表情。看起來效果很自然。

採用端到端的擴散範式,引入了分層的音訊驅動視覺合成模組,以提高音訊輸入與視覺輸出之間的對齊精度,包括唇部、表情和姿勢的運動。

分層音訊驅動的視覺合成模組提供了對表情和姿勢多樣性的自適應控制,更有效地實現了針對不同身分的個人化客製化。

TC-Bench: 影片產生測試

TC-Bench 一個影片產生模型的測試集,用來測試影片產生模型的時間組合性。評估產生的影片應像現實世界的影片一樣,隨著時間推移,包含新概念的出現及其關係的變化。

測試分析結果:

大多數視訊生成器實現的組合變化不到20%,目前的視訊生成模型在解釋組合變化的描述和動態地映射不同時間步驟的語義方面存在困難。

Meta 論文探討Transformers對單一像素的影響

提出了一種新穎的架構Pixel Transformer(PiT),它能夠直接將每個像素作為token輸入到Transformer中,而無需先將圖片分割成patch。

PiT的好處在於,它去除了convolution和patchification這兩個步驟中隱含的局部性偏壓(locality bias),讓模型能夠從像素級別自主學習特徵表示。

實驗證明,PiT在影像分類、自我監督學習、影像生成等任務上都取得了優於ViT的結果。

深度任意 V2

字节发布Depth Anything V2深度模型。比 Depth Anything V1 更精细的细节。与基于 SD 构建的模型相比效率显著更高(快了10倍以上)且更准确。提供了不同规模的模型(参数从25M到1.3B不等),以支持各种应用场景。

透過三個關鍵實踐產生了更精細和更魯棒的深度預測:

  1. 以合成影像取代所有標註的真實影像,
  2. 擴大教師模式的容量,
  3. 透過大規模偽標註的真實圖像作為橋樑來教導學生模型。

MotionClone: 從已有視訊控制生成的內容

隨著視訊生成模型的不斷成熟,視訊控制的方式的研究也越來越重要。

上海人工智慧實驗室這個研究可以**從參考影片中克隆動作來控製文字生成的影片。 **從簡報來看效好,有沒有因為原始影片的風格或內容污染。

採用時間注意機制在影片反轉過程中表示參考影片中的動作,並引入主要時間注意引導以減輕注意權重中的噪音或細微動作的影響。

提出了一種位置感知語義引導機制,該機制利用參考影片中前景的粗略位置和無分類器引導特徵來引導視訊生成。

發現大型語言模型的偏好最佳化演算法

這篇論文提出了一種新方法,透過大語言模型自動發現和生成高性能的偏好優化目標函數,而無需專家人工設計。具體來說,他們反覆提示語言模型根據先前評估的性能指標,輸出新的候選目標函數的程式碼實現。透過這個迭代最佳化過程,成功發現了一些先前未知但表現優異的偏好最佳化演算法。其中表現最好的演算法被命名為DiscoPOP,它自適應地混合了logistic loss和exponential loss。實驗顯示,DiscoPOP在基準測試和實際任務中都取得了業界領先的效能。

SelfGoal:您的語言代理程式已經知道如何實現高階目標

由大型語言模型(LLM)提供支援的語言代理作為遊戲和程式設計等領域的決策工具越來越有價值。然而,這些代理商經常面臨在沒有詳細說明的情況下實現高級目標以及適應回饋延遲的環境的挑戰。在本文中,我們介紹了SelfTarget,這是一種新穎的自動方法,旨在增強代理人在有限的人類先驗和環境回饋的情況下實現高級目標的能力。 SelfTarget的核心概念涉及在與環境互動期間自適應地將高階目標分解為更實用的子目標的樹狀結構,同時確定最有用的子目標並逐步更新該結構。實驗結果表明,SelfTarget顯著增強了語言代理在各種任務中的表現,包括競爭、合作和延遲回饋環境。

Follow-Your-Emoji:騰訊產生臉部說話影片的研究

他們沒有透過音訊驅動,而是做了面部表情的遷移,可以將任何人的面部表情遷移到對應的照片上生成影片。

這樣不止可以生成說話的視頻,即使沒有聲音只有表情也可以同步的很好。

包括真人、卡通、雕塑甚至動物,都可以很好的遷移。

看看這一周都發生了什麼事兒,主要介紹上周AIGC領域發佈的一些產品以及值得關注的研究成果
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
創作者要怎麼好好休息 + 避免工作過量?《黑貓創作報#4》午安,最近累不累? 這篇不是虛假的關心。而是《黑貓創作報》發行以來可能最重要的一篇。 是的,我們這篇講怎麼補充能量,也就是怎麼休息。
Thumbnail
avatar
黑貓老師
2024-06-29
防曬產品係數測試報告彙整(2024年)從2014年起,自己對於市售防曬產品的效能產生了濃厚的興趣。因為當時候發現不少產品的防曬係數其實標示是有問題的,像是原本應該是人體測試的SPF與PA數值,實際上沒有做,只用機器測試的數據來充當,但這兩者卻有很大的差異。像是防曬係數其實有強度、廣度與平均度三個面向需要一起判斷,但多數廠商並沒有完整標示
Thumbnail
avatar
邱品齊皮膚科醫師
2023-04-27
AIGC整合包 - 聲音克隆、AI繪圖、對話預訓練等多種人工智能工具集合AIGC,全名是人工智能生成內容(AI-generated content),指的是使用人工智能技術自動生成的各種數字內容。這些內容可以包括文本、圖像、音樂、視頻、程式碼等等。AIGC利用自然語言處理(NLP)、計算機視覺、機器學習和深度學習等技術來創建和生成這些內容。
Thumbnail
avatar
紫玉露
2024-06-09
AIGC對創作者的助力與限制?人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
Thumbnail
avatar
三十好幾
2024-02-16
AIGC工具大全分享,從個人助理到行銷應用應有盡有ChatGPT 自2022年11月問世以降,開啟了生成式AI (Generative AI,也稱AIGC, AI Generated Content) 技術和應用的爆炸性發展。本篇文章提供了各種類型的AIGC工具整理,從個人助理到繪圖再到研究類一應俱全,幫助您提高生產力。
Thumbnail
avatar
項博
2024-01-23
判斷AIGC合理使用的可能發展趨勢重點應在於生成式AI創造的內容或結果,是否能提升人類科技或人文有進一步的意義或公益,如果沒有,那AIGC就不符合合理使用原則。
Thumbnail
avatar
建佑律師_NoMoreLaw
2023-12-04
2023年AIGC大爆發|孵科未來學院科技大廠的專家們帶你學AI!未來十年都用得上的本事!深耕AI相關領域的FOCO Future|孵科未來,著重在人工智能方向的內容以及課程創業,目前正在廣招講師,合作夥伴以及學員,期待人工智能的未來使我們相遇!
Thumbnail
avatar
孵科未來| Yu-Han Wu(Rainnie)
2023-10-30
AIGC 保險產品智慧助理 問卷這邊請:[https://forms.gle/RKLscAACx9EogwjR7] 大家好~我們公司目前推出一個新的數據分析產品「AIGC產品智慧助理」,目前主要的數據搜集集中在「保險」領域,希望各位大大能夠填寫表單,提供寶貴意見。也期待大家能夠在工作中更上一層樓!
Thumbnail
avatar
昱勝
2023-10-19
2023 AIGC 詠唱者年會總回顧心得:技術、創作、攻防與規範一次懂|你與科技的距離 EP8.3「我因為 AI 被裁了,因為它能力比我好!那我到底還能(還要)幹嘛?」不論是開發者亦或 early adopter,乃至於耳聞 AI 的每個人可能都曾有過類似這樣的煩惱與焦慮。未來變化很快,但在現在這個當下,我們到底要意識到什麼?
Thumbnail
avatar
王政皓|怪獸科技公司
2023-09-15
AIGC (AI 生成技術) 在影視製作上的運用及未來隨著人工智慧技術的迅速發展,在影視製作領域的應用引起了廣泛的關注。尤其是 AI 生成技術,正逐漸成為影視製作過程中不可或缺的工具......
Thumbnail
avatar
烽燧視覺 / FSVP
2023-08-16
AIGC生成專欄:科技產業的生命線—鍺和鎵,中國如何掌握全球科技產業的命脈?鍺和鎵,這兩種專業金屬在科技產業中扮演著重要的角色。鍺主要用於光纖通信產品和紅外線熱成像裝置,中國是這兩種金屬的主要生產國...
Thumbnail
avatar
極速報導-馬博泰的政經廚房
2023-07-27
AIGC 對攝影行業的影響!適應新工具的方法是回歸初心?! ft. 專業攝影師Andy在 AIGC 逐漸氾濫的時代,「真實性」會變為我們更加珍貴的價值。 攝影師拍攝時的規劃、構圖、風格、花費的時間和苦心,這些都會變成所有人在鑑賞這張照片時更在意的事情。
Thumbnail
avatar
PXP_Cloud
2023-06-30