AIGC Weekly #76 新一輪小規模技術爆發

閱讀時間約 24 分鐘

上週精選✦

蘋果與Open AI 合作在ios 18 提供AI服務

上週蘋果的WWDC24靴子終於落地,iOS 18將非常深入的整合AI能力,AI能力更新主要包含在Siri、寫作助手以及圖像生成三個部分

  • Siri 利用Apple Intelligence 實現全新超能力。憑藉全新的設計、更豐富的語言理解能力以及隨時輸入Siri 的能力,與Siri 的交流比以往任何時候都更加自然。
    • Siri 採用全新設計,與系統體驗更加深度融合,優雅的光芒環繞螢幕邊緣。
    • 只要雙擊iPhone 或iPad 螢幕底部,不想大聲說話時,可以從系統中的任何位置輸入內容給Siri 。
    • 利用Siri 掌握的有關你設備功能和設定的廣泛產品知識。學習如何在iPhone、iPad 和Mac 上做新事情時,可以提出問題,Siri 可以快速提供逐步指導。
    • Apple Intelligence 為Siri 提供了螢幕感知功能,因此它可以理解螢幕上的內容並採取行動。
    • 了解您的個人背景使Siri 能夠以您獨特的方式為您提供幫助。 Siri 可以利用其對設備上資訊的了解來幫助找到所需資訊。
    • 使用Siri在應用程式內和應用程式間無縫執行操作。
  • Apple Intelligence 為新的寫作工具提供支持,可幫助你在寫作時隨時隨地找到合適的字詞。借助增強的語言功能,可以在幾秒鐘內總結整個講座,獲取較長的群組討論的簡短版本。
    • 可以校對文字、重寫不同版本直到語氣和措辭恰到好處,並且只需輕點一下即可總結所選文字。
    • 優先通知顯示在卡片頂部,一眼就知道需要注意什麼。通知會匯總,以便您可以更快地瀏覽它們。
    • 郵件中的優先訊息會將時間敏感的訊息提升到收件匣的頂部- 例如今天截止的邀請或今天下午航班的登機提醒。點按即可在郵件應用程式中顯示長電子郵件的摘要,直奔主題。您也可以直接從收件匣中查看電子郵件摘要。
    • 只需在Notes 或Phone 應用中點擊錄製即可錄製音訊和文字記錄。 Apple Intelligence 會產生文字記錄摘要,一眼便可了解最重要的資訊。
    • 使用郵件中的智慧回覆功能,快速起草包含所有正確詳細資訊的電子郵件回覆。
  • Apple Intelligence 讓你以全新的方式用視覺表達自我。創造有趣、原始的圖像和全新的Genmoji。使用Image Wand 將草圖變成與筆記相得益彰的相關圖像。
    • 借助應用程式中的Image Playground體驗,只需幾秒鐘即可製作有趣的原創圖像。根據描述、建議的概念,甚至是照片庫中的人物,創造全新的圖像。
    • 在專用的Image Playground 應用程式中嘗試不同的概念並嘗試動畫、插圖和草圖等圖像樣式。建立自訂圖像以在其他應用程式或社交媒體上與朋友分享。
    • 直接在鍵盤上製作全新的Genmoji,以配合任何對話。提供描述以查看預覽,並調整描述直到完美。
    • Image Wand可以將你的草圖轉換為Notes 應用程式中的相關影像。使用手指或Apple Pencil 在你的草圖周圍畫一個圓圈,Image Wand 會分析周圍的內容以產生互補的視覺效果。
    • 輸入描述,Apple Intelligence 會找到最匹配的照片和影片。然後,它會根據識別的主題,用獨特的章節製作故事情節,並將照片排列成具有自己敘事弧線的影片。
    • 使用照片應用中的清理工具去除照片中的干擾物。 Apple Intelligence 可辨識背景物體,需輕觸即可移除,可拍出完美的照片,同時保留原始影像。

蘋果也發布了一篇內容介紹了一下他們的LLM 部署方案,主要有三層結構組成:

  • 設備端LLM推理:未來的iOS版本將包含一個小型低延遲的AI模型(30億參數),它能夠理解用戶命令、當前螢幕並在應用程式上執行操作。該模型不僅能處理總結等簡單任務,還可以為Siri的“AI智能體”功能提供支持,例如處理需要打開和使用多個應用程序的用戶命令——比如“嘿Siri,叫一輛Uber到最近的Costco」。最重要的是,該模型運行在Apple Silicon晶片(如M系列晶片)上。
  • 私有雲運算:裝置端的大語言模型可能會將某些複雜任務卸載給Apple資料中心託管的更強大模型(稱為「私有雲運算」)。這些資料中心也將完全運作在Apple的M系列晶片上。傳輸的資料將完全加密和保護。伺服器由Apple自主製造。換句話說,Apple已經垂直整合了在裝置端和資料中心內運行AI所需的一切。
  • 第三方模型推理:使用者也可以透過Siri或某些iOS應用直接使用OpenAI的ChatGPT。請注意,這並不是用ChatGPT取代Siri——這是許多人對OpenAI合作的誤解。實際上,ChatGPT在特定情況下作為Apple模型的替代方案提供。例如,當使用者即將修訂電子郵件時,可以選擇ChatGPT的回應。

Open AI 也發布了一個公告介紹跟蘋果的合作

  • ChatGPT 整合功能會免費提供給ios 用戶,付費會員可以登入後使用付費功能。
  • 連文字改寫都用的ChatGPT,影像看起來都用的DALL-E。
  • Siri 也可以在需要時呼叫ChatGPT 的智慧。調用需要用戶同意。
  • 使用者無需在不同工具之間切換即可使用ChatGPT 的功能,包括影像和文件理解。

Luma 發布影片生成模型Dream Machine

上週最大的黑馬內容就是Luma AI發布了Dream Machine影片生成模型,圖生影片的表現相當驚艷,絕對是電影級表現。解析度、運動幅度、美學表現都是非常牛批,同時立刻向所有人開放了免費試用。

發布之後社區也很快玩了起來,除了用AI生成的圖片生成視頻之外,用已有的表情包圖片生成的視頻也都很生動和搞笑,比如這個著名的奧斯卡合照圖片

也有很多很好的短片,像是這個美少女混剪可愛怪物動畫

我自己的跑了一些測試,總結了一些發現的要點:

  • Luma 文生影片的品質不如可靈,基本上不可用。
  • 圖生影片很令人驚喜,一致性,運動幅度都很好。
  • 它可以補充畫面沒有的內容,同時已有的風格和內容依然可以保證一致。
  • 與可靈類似的是,如果是模型不理解的概念,即使圖生視訊品質也很差。
  • 短提示詞效果很好,最好只說圖片中的運動內容在如何運動就好。

正面官方發布的視頻中也介紹了一下模型的特色和擅長的內容:

  • 產生的影片品質很高,解析度可達1024像素。
  • 能很好地理解提示並產生符合美學風格的影片。
  • 推理速度快,縮短了等待時間,有利於快速迭代創意。
  • 可以產生連貫的動作和運動,不像之前的模型那樣畫面靜止和慢動作。
  • 對物理和人物運動有很好的理解。
  • 在同一影片中,人物和物體能保持一致性。
  • 可以生成有趣的鏡頭運動,而不僅僅是靜止的角度。

找資料查了一下Luma AI的團隊成員背景確實都很離譜,創業天團了可能是:

  • Alex Yu:Luma AI的共同創辦人兼CTO,曾是UC Berkeley的AI研究員,專注於即時神經渲染和從單一影像生成3D模型的研究。
  • Amit Jain:Luma AI的共同創辦人兼CEO,曾在Apple工作,負責Vision Pro的多媒體體驗,專注於電腦視覺和產品設計。
  • Jiaming Song:Luma AI的首席科学家,曾在NVIDIA的生成式AI组工作,领导了扩散模型(如DDIM)的研究,这些模型显著提升了生成式AI的性能。
  • Matthew Tancik:Luma AI的應用研究團隊負責人,曾協助創建神經輻射場(NeRF),這是3D神經渲染領域的重要方法之一。
  • Angjoo Kanazawa:Luma AI的首席科學顧問,加州大學柏克萊分校電機工程與電腦科學系助理教授,研究方向為電腦視覺、電腦圖形學和機器學習,特別關注動態3D世界的視覺感知。

SD3 2B 模型開源

SD3的2B模型終於如約發布,但是發布完成測試後大家發現模型在人體生成以及躺著的人方面存在著非常嚴重的問題,同時模型對於短提示詞的響應也沒那麼好,引發了社區的議論。

我自己嘗試了一下跟社區測試的結果也差不多,如果提示詞寫好,避免人手的情況下圖片質量和提示詞理解都是在線的。

Stability AI 前CEO Emad確認了模型的這些問題基本上都是由於安全對齊引起的,DALL-E和谷歌的圖像模型都有類似的問題,不過由於SD3模型是開源的這些問題是可以被修復的,社區和SD3訓練者都在積極尋找修復的辦法。

另外在生態適配上社群進展也比較樂觀,Lora的訓練代碼已經發布,同時Instant團隊也發布了多個適配SD 3的ControlNet模型

另外這次SD3的開源是非商用的,而且關於模型微調部分條款也模糊不清,部署的時候需要注意。

SD3的優勢

  • 照片寫實主義:克服了手部和臉部常見的偽像,提供高品質影像,無需複雜的工作流程。
  • 提示遵循:理解涉及空間關係、構圖元素、動作和風格的複雜提示。
  • 排版:在DiT架構的幫助下,實現了生成文字而不產生偽影和拼字錯誤的前所未有的結果。
  • 資源利用效率高:由於其較低的VRAM 佔用,適合在標準消費級GPU 上運作而無效能降級。
  • Fine-Tuning:能夠吸收小數據集中的微妙細節,非常適合客製化。

模型文件主要由這幾部分組成

sd3_medium.safetensors 包括MMDiT 和VAE 權重,但不包括任何文字編碼器。

sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的權重,包括T5XXL 文字編碼器的fp8 版本,提供品質和資源需求之間的平衡。

sd3_medium_incl_clips.safetensors 包括所有必要的權重,除了T5XXL 文字編碼器。它需要最少的資源,但模型的性能將在沒有T5XXL 文字編碼器的情況下有所不同。

example_workfows 資料夾包含範例Comfyui的工作流程。

推薦參數

fofr 用SD3 產生的圖片看起來品質比較高,他也說了自己用的參數:28 steps, 3.5 CFG, 896x1088, 28 steps, sd3_medium_incl_clips_t5xxlfp8.safetensors,之前Emad 介紹的SD3 取樣器。

英偉達開源規模最大的LLM

英偉達開源了目前為止規模最大的大語言模型Nemotron-4 340B,主要目的是幫助開發人員用來合成資料訓練LLM。

Nemotron-4 340B 系列包括基礎、指導和獎勵三個模型權重,Base 模型在9 兆Token 的語料庫上預先訓練,有50 多種自然語言和40 多種程式語言。

經過了SFT、DPO、RPO三種對齊方式。

整個對齊過程中依賴約20K 個人工標註的數據,數據產生管線合成了用於監督微調和偏好微調(DPO 和RPO)的數據的98%以上。

模型可以商業化使用,而且可以自由創建和分發衍生模型。

Nemotron-4-340B-Instruct 是標準的僅解碼器Transformer,訓練時序列長度為4096 個標記,使用分組查詢注意力(GQA)和旋轉位置嵌入(RoPE)。

訓練花了768 DGX H100集群,每個集群包含8 H100 80GB SXM5 GPUs。

其他動態✦

  • Open AI 在微調API介面中加入了對tools參數的支援, 可以微調模型以進行平行函數調用
  • Abacus AI和Yann LeCunn團隊一起發布了一個LLM測試基準,測試集會不斷更新防止模型作弊,並且產出了第一期的排行
  • KREA AI上線了視訊放大和增強服務,試了一下還可以,有需求可以試試。
  • 在過去的六個月裡,OpenAI 的年度收入翻了一番,達到34億美元。收入幾乎全部直接來自於ChatGPT 和其他OpenAI 產品的銷售。
  • Open AI 董事會新成員是前美國國家安全局長,一輩子都在軍方供職。
  • 烏札德發布了Autodesigner 2.0 UI 生成方案。
  • 美圖發表會也發了一個DiT 影片模型,從示範效果來看還比較早期。同時推出了一個AI 影片編輯平台Moki
  • Midjourney 發布了自訂模型的能力會根據你日常讚和Tsak 選擇的圖片訓練一個經過你微調的模型。
  • Mistral AI 在B 輪融資中籌集了600 百萬歐元。 General Catalyst 領投了這輪融資,使公司估值達到60 億美元。
  • Open AI 認命了新的CFO 和CPO,凱文·韋爾(前Instagram 產品副總裁)將加入擔任首席產品官,而薩拉·弗萊爾(前NextDoor 首席執行官、前Square 首席財務官)將加入擔任首席財務官。

產品推薦✦

Apparate:讓圖片變成說話視頻

Proteus 0.1,即時視訊生成為您的AI 注入活力。 Proteus 可以大笑、饒舌、唱歌、眨眼、微笑、說話等等。只需一張圖片。

Mapify:AI 心智圖

Mapify(原名Chatmind)是一款AI 心智圖工具,能夠快速從各種格式的內容(如文字、網頁、影片、圖像、語音等)中提取關鍵訊息,並產生結構化的思維導圖,旨在提升用戶的生產力和創造力。

Mapify 整合了AI 對話功能,讓使用者可以在心智圖上與AI 進行交互,完成查詢、修改和擴展的操作。

AdCreative:AI 生成廣告創意

AdCreative.ai 是一個專注於廣告創意生成的AI 平台,它透過分析和機器學習,幫助使用者產生高轉換率的廣告創意。該平台擁有大量的廣告創意資料庫,能夠產生各種尺寸和類型的廣告素材,包括社群媒體貼文、影片廣告、產品拍攝等。用戶可以透過該平台提高廣告效果,降低設計成本,並且獲得對競爭對手廣告策略的洞察。 AdCreative.ai 提供不同等級的服務計劃,包括免費試用、新創公司、專業人士和代理商等,滿足不同規模使用者的需求。此外,該平台還提供了50% 的折扣優惠,以及針對企業客戶的客製化解決方案。

Deformity:AI 建立表單

Deformity.ai 提供了一個創新的表單創建平台,透過人工智慧技術,使用者可以快速製作出生動的對話式表單。這些表單能夠以多種語言與使用者互動,有助於全球化的客戶參與。平台支援多種功能,包括擷取客戶聯絡資訊、資格審查以篩選潛在客戶、收集客戶回饋以改善產品或服務、設計有趣的測驗以了解受眾群體、舉辦抽獎活動以提高參與度,以及進行研究以確保數據收集的品質。

Afforai:AI 文獻研究工具

Afforai 是一個為研究人員設計的AI 驅動的研究助理和聊天機器人,它提供了一系列工具來簡化研究流程。使用者可以透過Afforai Reference Manager 上傳和管理研究論文,使用Afforai Notebook 對論文進行註釋和筆記,以及利用Afforai Cite 管理引用和元資料。該平台支援多種文件格式,並提供了三種不同的搜尋模式,包括文件檢索模式、學術搜尋模式和Google搜尋模式,以幫助研究人員梳理和比較大量的文獻。

Recall:AI 驅動的內容收集工具

Recall 提供了一種新型的知識管理方法,它能夠自動總結用戶在線上遇到的各種內容,例如播客、YouTube 影片、新聞文章、PDF 等,並將其保存到用戶的知識庫中。這個知識庫不僅自動組織和分類內容,還透過知識圖譜技術幫助使用者發現資訊之間的聯繫,從而更深入地理解複雜主題。此外,Recall 還提供了間隔重複學習功能,幫助使用者更好地學習和記憶。

精選文章✦

那個團子和Stable Diffusion的1000天

詳細回顧了Dango233(團子)和huoju 在開源AI 社群的貢獻歷程。三年前,團子因為興趣加入了EleutherAI 的Discord 社區,開始接觸CLIP+VQGAN,並逐步參與到更深層次的圖像生成技術討論中。隨著時間的推移,他參與了多個項目,如Disco Diffusion 和Majesty Diffusion,並受邀加入StabilityAI 公司,該公司由Emad Mostaque 創立,致力於開源AI。團子在這個過程中也面臨了職業選擇的十字路口,最終選擇了參與Stable Diffusion 的開發,這一決定極大地改變了他的職業軌跡。

智變時代/ 全面理解機器智慧與生成式AI 加速的新工業革命

將溫故AI 發展波瀾壯闊的一年,試著抓住生成式AI 變革的本質,撥開喧囂與迷霧,追尋科技巨頭與AI 機構們在更高智能道路上的探索,以及變革會如何全面改變人機交互、世界的產業、經濟還有我們自己。

全文36000 字,共分五個章節:

  1. 模型- 競爭、泛化與變革的本質
  2. 應用- 智能代理、智能體與組織新形態
  3. 智變- 廉價誘導需求、從中心到邊緣算力、新工業革命
  4. 演化- 模型如何理解與演化、自主目標與自動化的AGI
  5. 選擇- 職業變遷、自我提升與科技恆大

生成式AI不會為你建立工程團隊

作者透過自己的經驗講述了軟體工程產業的成長和變化,指出軟體工程是一門學徒制的職業,需要透過實踐和時間來累積經驗。文章強調,儘管生成式AI 可以快速產生程式碼,但這些程式碼往往不可靠,需要經驗豐富的工程師進行審查和修改。

AI 產生的程式碼只是軟體工程中最容易的部分,而真正的挑戰在於理解、維護和操作這些程式碼。文章也討論了初級工程師在團隊中的價值,以及為什麼持續招募初級工程師對團隊和整個產業都是有益的。

儘管招募初級工程師需要時間和資源進行培訓,但這是一個值得的投資,因為它有助於培養未來的資深工程師,並保持團隊的多樣性和創新能力。最後,作者呼籲工程師和工程管理者要親自推動招募和培訓初級工程師的工作,以確保產業的持續發展和繁榮。

中間代碼的興起

探討了中間程式碼(Medium Code)在軟體開發中的興起,強調了人工智慧(AI)在加速中碼實踐中的作用,並認為中碼將是AI 原生軟體開發的未來。

  • 軟體並沒有消亡,反而有越來越多的人正在建立軟體。
  • 透過Dagster(資料編排工具),觀察到一類新的軟體開發人員的出現,如分析工程師和資料科學家,他們不是全端工程師,但仍然將關鍵任務程式碼部署到生產環境中。
  • 這類人員被稱為中間程式碼實踐者,他們透過更人性化的接口,更有效率地編寫更多的生產程式碼。

蘋果的人工智慧告訴我們什麼:實驗模型

Ethan Mollick 在內容中分享了一些關於蘋果AI(或稱為「蘋果智慧」)的初步看法。

雖然他沒有親自使用蘋果的AI,但他認為這次發布突出了當前AI 領域正在進行的四個模型的實驗:AI 模型、使用模型、商業模型和未來的心智模型。

在AI 使用模型方面,蘋果專注於讓AI 為用戶完成具體任務,而前沿AI 模型如Gemini 1.5 和GPT-4o 則更像是智能助手,能夠處理更廣泛的任務,但也可能出現意想不到的行為。在商業模型方面,蘋果可能會從免費服務開始,但未來可能會收費。

LLM能發明更好的方法來訓練LLM嗎?

Sakana AI 正在探索將自然演化中的最佳化概念應用於人工智慧領域,特別是在大型語言模型(LLMs)的培訓中。他們提出了一個名為 LLM²(LLM-squared)的自我改進過程,旨在利用LLMs 來自動化地發現和最佳化培訓LLMs 的演算法。 Sakana AI 的最新報告展示了他們使用LLMs 來合成新的偏好優化演算法的成果,並提出了一種名為 Discovered Preference Optimization(DiscoPOP)的演算法。

紅隊AI系統的挑戰

論了人工智慧(AI)系統的紅隊測試(red teaming)挑戰,總結了不同的紅隊測試方法,並強調了建立標準化實踐和政策建議的重要性。

文章指出了AI 領域缺乏標準化紅隊測試實踐的問題,並強調了需要建立這些實踐和標準的緊迫性。接著,文章詳細描述了多種紅隊測試方法,包括:

  • 領域特定的專家紅隊測試,涵蓋信任與安全政策漏洞測試、國家安全前沿威脅紅隊測試,以及多語言和多文化紅隊測試。
  • 使用語言模型進行紅隊測試,介紹了自動化紅隊測試的方法,透過模型之間的紅隊(攻擊)和藍隊(防禦)動態來提高系統的穩健性。
  • 在新模態中進行紅隊測試,特別是針對多模態AI 系統(如Claude 3)的測試,這些系統能夠處理圖像和文字等不同類型的輸入。
  • 開放式、通用的紅隊測試,包括眾包紅隊測試以及社區參與的紅隊測試,這些測試旨在發現一般性的傷害和系統限制。

重點研究✦

Hallo:復旦發布的開源版本EMO

透過輸入音訊讓臉部照片開始說話,並且有對於的表情。看起來效果很自然。

採用端到端的擴散範式,引入了分層的音訊驅動視覺合成模組,以提高音訊輸入與視覺輸出之間的對齊精度,包括唇部、表情和姿勢的運動。

分層音訊驅動的視覺合成模組提供了對表情和姿勢多樣性的自適應控制,更有效地實現了針對不同身分的個人化客製化。

TC-Bench: 影片產生測試

TC-Bench 一個影片產生模型的測試集,用來測試影片產生模型的時間組合性。評估產生的影片應像現實世界的影片一樣,隨著時間推移,包含新概念的出現及其關係的變化。

測試分析結果:

大多數視訊生成器實現的組合變化不到20%,目前的視訊生成模型在解釋組合變化的描述和動態地映射不同時間步驟的語義方面存在困難。

Meta 論文探討Transformers對單一像素的影響

提出了一種新穎的架構Pixel Transformer(PiT),它能夠直接將每個像素作為token輸入到Transformer中,而無需先將圖片分割成patch。

PiT的好處在於,它去除了convolution和patchification這兩個步驟中隱含的局部性偏壓(locality bias),讓模型能夠從像素級別自主學習特徵表示。

實驗證明,PiT在影像分類、自我監督學習、影像生成等任務上都取得了優於ViT的結果。

深度任意 V2

字节发布Depth Anything V2深度模型。比 Depth Anything V1 更精细的细节。与基于 SD 构建的模型相比效率显著更高(快了10倍以上)且更准确。提供了不同规模的模型(参数从25M到1.3B不等),以支持各种应用场景。

透過三個關鍵實踐產生了更精細和更魯棒的深度預測:

  1. 以合成影像取代所有標註的真實影像,
  2. 擴大教師模式的容量,
  3. 透過大規模偽標註的真實圖像作為橋樑來教導學生模型。

MotionClone: 從已有視訊控制生成的內容

隨著視訊生成模型的不斷成熟,視訊控制的方式的研究也越來越重要。

上海人工智慧實驗室這個研究可以**從參考影片中克隆動作來控製文字生成的影片。 **從簡報來看效好,有沒有因為原始影片的風格或內容污染。

採用時間注意機制在影片反轉過程中表示參考影片中的動作,並引入主要時間注意引導以減輕注意權重中的噪音或細微動作的影響。

提出了一種位置感知語義引導機制,該機制利用參考影片中前景的粗略位置和無分類器引導特徵來引導視訊生成。

發現大型語言模型的偏好最佳化演算法

這篇論文提出了一種新方法,透過大語言模型自動發現和生成高性能的偏好優化目標函數,而無需專家人工設計。具體來說,他們反覆提示語言模型根據先前評估的性能指標,輸出新的候選目標函數的程式碼實現。透過這個迭代最佳化過程,成功發現了一些先前未知但表現優異的偏好最佳化演算法。其中表現最好的演算法被命名為DiscoPOP,它自適應地混合了logistic loss和exponential loss。實驗顯示,DiscoPOP在基準測試和實際任務中都取得了業界領先的效能。

SelfGoal:您的語言代理程式已經知道如何實現高階目標

由大型語言模型(LLM)提供支援的語言代理作為遊戲和程式設計等領域的決策工具越來越有價值。然而,這些代理商經常面臨在沒有詳細說明的情況下實現高級目標以及適應回饋延遲的環境的挑戰。在本文中,我們介紹了SelfTarget,這是一種新穎的自動方法,旨在增強代理人在有限的人類先驗和環境回饋的情況下實現高級目標的能力。 SelfTarget的核心概念涉及在與環境互動期間自適應地將高階目標分解為更實用的子目標的樹狀結構,同時確定最有用的子目標並逐步更新該結構。實驗結果表明,SelfTarget顯著增強了語言代理在各種任務中的表現,包括競爭、合作和延遲回饋環境。

Follow-Your-Emoji:騰訊產生臉部說話影片的研究

他們沒有透過音訊驅動,而是做了面部表情的遷移,可以將任何人的面部表情遷移到對應的照片上生成影片。

這樣不止可以生成說話的視頻,即使沒有聲音只有表情也可以同步的很好。

包括真人、卡通、雕塑甚至動物,都可以很好的遷移。

看看這一周都發生了什麼事兒,主要介紹上周AIGC領域發佈的一些產品以及值得關注的研究成果
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
​ 目录 一、苹果的Apple Intelligence(AI)功能发布iOS 18.1 Beta版 二、如何提升AI在手机端的计算能力? 三、设备电池续航如何应对AI高运算需求? 四、手机存储空间是否足以容纳大型AI模型? 五、AI设备的成本是否会显著增加? 六、如何优化AI的能耗管
Thumbnail
蘋果跨入生成式AI的時間比對手晚,雖然該公司已開發出小型AI模型,但較複雜或特殊的任務,仍希望交由AI夥伴接手。蘋果軟體負責人Craig Federighi先前表示,該公司希望一開始就提供最優秀選項;ChatGPT是蘋果用戶當今的最佳選擇。他並說,蘋果也想整合Google AI模型「Gemini」
Thumbnail
蘋果已於 WWDC 大會中推出了其 AI 技術 Apple Intelligence,新功能預計會在 9 月 iPhone 16 系列發售後一同推出,不過初期 Apple Intelligence 僅支援美式英語,且僅為 Beta 版。但即便如此,大摩仍看好 Apple Intelligence
Thumbnail
Apple 在 WWDC 2024 蘋果開發者大會上所推出了「Apple Intelligence」 AI 智慧系統。以下介紹 Apple Intelligence 的完整資訊。
Thumbnail
Apple在10日舉行的全球開發者大會(WWDC),將最新的「蘋果智慧」(Apple Intelligence)融入包括Siri在內的一系列app,並宣稱將與OpenAI結盟 ,未來將準備與ChatGPT整合,Apple當天股價不漲反跌1.91%,但不少機構分析師對於Apple終將趕上AI浪潮...
Thumbnail
Apple 最新的系統系列,在今天台灣時間 11 日凌晨正式亮相了,只能說這波 AI 操作真的有點厲害啊。
Thumbnail
iPhone 和 Mac 免費配備 ChatGPT: • 直接從 Siri 存取 ChatGPT 並提出問題 • 詢問有關您的文件的問題 • 使用 ChatGPT 分享照片並取得建議 • 使用 ChatGPT 在文件中建立圖像和文字 尋找相片庫中包含特定人物的照片
据报道,苹果很快将与OpenAI达成协议,将ChatGPT功能应用于在下一代iPhone操作系统iOS18中,双方一直在敲定最终的协议条款。若该协议达成,将使苹果在AI领域的战略布局更加完善。 同时,苹果还与谷歌对于Gemini聊天机器人的使用授权进行谈判,但尚未达成最终协议。目前尚不清楚Chat
Thumbnail
iPhone 16的新功能除了加強硬體設備外,還引入了一項極具吸引力的亮點:iPhone 16的人工智慧(AI)功能升級。這次蘋果主要將AI功能升級應用於語音助理Siri,旨在整合生成式AI功能和大型語言模型(LLM),以期提升使用者體驗。
Thumbnail
2023年全球AI成為熱門話題,Google、Samsung等手機品牌相繼推出了他們的「AI手機」。作為手機巨頭之一的蘋果,當然不會放棄這塊大餅。傳言和蘋果執行長庫克本人的言論都指向2024年將是蘋果將推出AI產品,預計iOS 18將帶來重大更新。
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
​ 目录 一、苹果的Apple Intelligence(AI)功能发布iOS 18.1 Beta版 二、如何提升AI在手机端的计算能力? 三、设备电池续航如何应对AI高运算需求? 四、手机存储空间是否足以容纳大型AI模型? 五、AI设备的成本是否会显著增加? 六、如何优化AI的能耗管
Thumbnail
蘋果跨入生成式AI的時間比對手晚,雖然該公司已開發出小型AI模型,但較複雜或特殊的任務,仍希望交由AI夥伴接手。蘋果軟體負責人Craig Federighi先前表示,該公司希望一開始就提供最優秀選項;ChatGPT是蘋果用戶當今的最佳選擇。他並說,蘋果也想整合Google AI模型「Gemini」
Thumbnail
蘋果已於 WWDC 大會中推出了其 AI 技術 Apple Intelligence,新功能預計會在 9 月 iPhone 16 系列發售後一同推出,不過初期 Apple Intelligence 僅支援美式英語,且僅為 Beta 版。但即便如此,大摩仍看好 Apple Intelligence
Thumbnail
Apple 在 WWDC 2024 蘋果開發者大會上所推出了「Apple Intelligence」 AI 智慧系統。以下介紹 Apple Intelligence 的完整資訊。
Thumbnail
Apple在10日舉行的全球開發者大會(WWDC),將最新的「蘋果智慧」(Apple Intelligence)融入包括Siri在內的一系列app,並宣稱將與OpenAI結盟 ,未來將準備與ChatGPT整合,Apple當天股價不漲反跌1.91%,但不少機構分析師對於Apple終將趕上AI浪潮...
Thumbnail
Apple 最新的系統系列,在今天台灣時間 11 日凌晨正式亮相了,只能說這波 AI 操作真的有點厲害啊。
Thumbnail
iPhone 和 Mac 免費配備 ChatGPT: • 直接從 Siri 存取 ChatGPT 並提出問題 • 詢問有關您的文件的問題 • 使用 ChatGPT 分享照片並取得建議 • 使用 ChatGPT 在文件中建立圖像和文字 尋找相片庫中包含特定人物的照片
据报道,苹果很快将与OpenAI达成协议,将ChatGPT功能应用于在下一代iPhone操作系统iOS18中,双方一直在敲定最终的协议条款。若该协议达成,将使苹果在AI领域的战略布局更加完善。 同时,苹果还与谷歌对于Gemini聊天机器人的使用授权进行谈判,但尚未达成最终协议。目前尚不清楚Chat
Thumbnail
iPhone 16的新功能除了加強硬體設備外,還引入了一項極具吸引力的亮點:iPhone 16的人工智慧(AI)功能升級。這次蘋果主要將AI功能升級應用於語音助理Siri,旨在整合生成式AI功能和大型語言模型(LLM),以期提升使用者體驗。
Thumbnail
2023年全球AI成為熱門話題,Google、Samsung等手機品牌相繼推出了他們的「AI手機」。作為手機巨頭之一的蘋果,當然不會放棄這塊大餅。傳言和蘋果執行長庫克本人的言論都指向2024年將是蘋果將推出AI產品,預計iOS 18將帶來重大更新。