上週蘋果的WWDC24靴子終於落地,iOS 18將非常深入的整合AI能力,AI能力更新主要包含在Siri、寫作助手以及圖像生成三個部分:
蘋果也發布了一篇內容介紹了一下他們的LLM 部署方案,主要有三層結構組成:
Open AI 也發布了一個公告來介紹跟蘋果的合作:
上週最大的黑馬內容就是Luma AI發布了Dream Machine影片生成模型,圖生影片的表現相當驚艷,絕對是電影級表現。解析度、運動幅度、美學表現都是非常牛批,同時立刻向所有人開放了免費試用。
發布之後社區也很快玩了起來,除了用AI生成的圖片生成視頻之外,用已有的表情包圖片生成的視頻也都很生動和搞笑,比如這個著名的奧斯卡合照圖片。
我自己的跑了一些測試,總結了一些發現的要點:
正面官方發布的視頻中也介紹了一下模型的特色和擅長的內容:
找資料查了一下Luma AI的團隊成員背景確實都很離譜,創業天團了可能是:
SD3的2B模型終於如約發布,但是發布完成測試後大家發現模型在人體生成以及躺著的人方面存在著非常嚴重的問題,同時模型對於短提示詞的響應也沒那麼好,引發了社區的議論。
我自己嘗試了一下跟社區測試的結果也差不多,如果提示詞寫好,避免人手的情況下圖片質量和提示詞理解都是在線的。
Stability AI 前CEO Emad確認了模型的這些問題基本上都是由於安全對齊引起的,DALL-E和谷歌的圖像模型都有類似的問題,不過由於SD3模型是開源的這些問題是可以被修復的,社區和SD3訓練者都在積極尋找修復的辦法。
另外在生態適配上社群進展也比較樂觀,Lora的訓練代碼已經發布,同時Instant團隊也發布了多個適配SD 3的ControlNet模型。
另外這次SD3的開源是非商用的,而且關於模型微調部分條款也模糊不清,部署的時候需要注意。
SD3的優勢:
模型文件主要由這幾部分組成:
sd3_medium.safetensors 包括MMDiT 和VAE 權重,但不包括任何文字編碼器。
sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的權重,包括T5XXL 文字編碼器的fp8 版本,提供品質和資源需求之間的平衡。
sd3_medium_incl_clips.safetensors 包括所有必要的權重,除了T5XXL 文字編碼器。它需要最少的資源,但模型的性能將在沒有T5XXL 文字編碼器的情況下有所不同。
example_workfows 資料夾包含範例Comfyui的工作流程。
推薦參數:
fofr 用SD3 產生的圖片看起來品質比較高,他也說了自己用的參數:28 steps, 3.5 CFG, 896x1088, 28 steps, sd3_medium_incl_clips_t5xxlfp8.safetensors,之前Emad 介紹的SD3 取樣器。
英偉達開源了目前為止規模最大的大語言模型Nemotron-4 340B,主要目的是幫助開發人員用來合成資料訓練LLM。
Nemotron-4 340B 系列包括基礎、指導和獎勵三個模型權重,Base 模型在9 兆Token 的語料庫上預先訓練,有50 多種自然語言和40 多種程式語言。
經過了SFT、DPO、RPO三種對齊方式。
整個對齊過程中依賴約20K 個人工標註的數據,數據產生管線合成了用於監督微調和偏好微調(DPO 和RPO)的數據的98%以上。
模型可以商業化使用,而且可以自由創建和分發衍生模型。
Nemotron-4-340B-Instruct 是標準的僅解碼器Transformer,訓練時序列長度為4096 個標記,使用分組查詢注意力(GQA)和旋轉位置嵌入(RoPE)。
訓練花了768 DGX H100集群,每個集群包含8 H100 80GB SXM5 GPUs。
Proteus 0.1,即時視訊生成為您的AI 注入活力。 Proteus 可以大笑、饒舌、唱歌、眨眼、微笑、說話等等。只需一張圖片。
Mapify(原名Chatmind)是一款AI 心智圖工具,能夠快速從各種格式的內容(如文字、網頁、影片、圖像、語音等)中提取關鍵訊息,並產生結構化的思維導圖,旨在提升用戶的生產力和創造力。
Mapify 整合了AI 對話功能,讓使用者可以在心智圖上與AI 進行交互,完成查詢、修改和擴展的操作。
AdCreative.ai 是一個專注於廣告創意生成的AI 平台,它透過分析和機器學習,幫助使用者產生高轉換率的廣告創意。該平台擁有大量的廣告創意資料庫,能夠產生各種尺寸和類型的廣告素材,包括社群媒體貼文、影片廣告、產品拍攝等。用戶可以透過該平台提高廣告效果,降低設計成本,並且獲得對競爭對手廣告策略的洞察。 AdCreative.ai 提供不同等級的服務計劃,包括免費試用、新創公司、專業人士和代理商等,滿足不同規模使用者的需求。此外,該平台還提供了50% 的折扣優惠,以及針對企業客戶的客製化解決方案。
Deformity.ai 提供了一個創新的表單創建平台,透過人工智慧技術,使用者可以快速製作出生動的對話式表單。這些表單能夠以多種語言與使用者互動,有助於全球化的客戶參與。平台支援多種功能,包括擷取客戶聯絡資訊、資格審查以篩選潛在客戶、收集客戶回饋以改善產品或服務、設計有趣的測驗以了解受眾群體、舉辦抽獎活動以提高參與度,以及進行研究以確保數據收集的品質。
Afforai 是一個為研究人員設計的AI 驅動的研究助理和聊天機器人,它提供了一系列工具來簡化研究流程。使用者可以透過Afforai Reference Manager 上傳和管理研究論文,使用Afforai Notebook 對論文進行註釋和筆記,以及利用Afforai Cite 管理引用和元資料。該平台支援多種文件格式,並提供了三種不同的搜尋模式,包括文件檢索模式、學術搜尋模式和Google搜尋模式,以幫助研究人員梳理和比較大量的文獻。
Recall 提供了一種新型的知識管理方法,它能夠自動總結用戶在線上遇到的各種內容,例如播客、YouTube 影片、新聞文章、PDF 等,並將其保存到用戶的知識庫中。這個知識庫不僅自動組織和分類內容,還透過知識圖譜技術幫助使用者發現資訊之間的聯繫,從而更深入地理解複雜主題。此外,Recall 還提供了間隔重複學習功能,幫助使用者更好地學習和記憶。
詳細回顧了Dango233(團子)和huoju 在開源AI 社群的貢獻歷程。三年前,團子因為興趣加入了EleutherAI 的Discord 社區,開始接觸CLIP+VQGAN,並逐步參與到更深層次的圖像生成技術討論中。隨著時間的推移,他參與了多個項目,如Disco Diffusion 和Majesty Diffusion,並受邀加入StabilityAI 公司,該公司由Emad Mostaque 創立,致力於開源AI。團子在這個過程中也面臨了職業選擇的十字路口,最終選擇了參與Stable Diffusion 的開發,這一決定極大地改變了他的職業軌跡。
將溫故AI 發展波瀾壯闊的一年,試著抓住生成式AI 變革的本質,撥開喧囂與迷霧,追尋科技巨頭與AI 機構們在更高智能道路上的探索,以及變革會如何全面改變人機交互、世界的產業、經濟還有我們自己。
全文36000 字,共分五個章節:
作者透過自己的經驗講述了軟體工程產業的成長和變化,指出軟體工程是一門學徒制的職業,需要透過實踐和時間來累積經驗。文章強調,儘管生成式AI 可以快速產生程式碼,但這些程式碼往往不可靠,需要經驗豐富的工程師進行審查和修改。
AI 產生的程式碼只是軟體工程中最容易的部分,而真正的挑戰在於理解、維護和操作這些程式碼。文章也討論了初級工程師在團隊中的價值,以及為什麼持續招募初級工程師對團隊和整個產業都是有益的。
儘管招募初級工程師需要時間和資源進行培訓,但這是一個值得的投資,因為它有助於培養未來的資深工程師,並保持團隊的多樣性和創新能力。最後,作者呼籲工程師和工程管理者要親自推動招募和培訓初級工程師的工作,以確保產業的持續發展和繁榮。
探討了中間程式碼(Medium Code)在軟體開發中的興起,強調了人工智慧(AI)在加速中碼實踐中的作用,並認為中碼將是AI 原生軟體開發的未來。
Ethan Mollick 在內容中分享了一些關於蘋果AI(或稱為「蘋果智慧」)的初步看法。
雖然他沒有親自使用蘋果的AI,但他認為這次發布突出了當前AI 領域正在進行的四個模型的實驗:AI 模型、使用模型、商業模型和未來的心智模型。
在AI 使用模型方面,蘋果專注於讓AI 為用戶完成具體任務,而前沿AI 模型如Gemini 1.5 和GPT-4o 則更像是智能助手,能夠處理更廣泛的任務,但也可能出現意想不到的行為。在商業模型方面,蘋果可能會從免費服務開始,但未來可能會收費。
Sakana AI 正在探索將自然演化中的最佳化概念應用於人工智慧領域,特別是在大型語言模型(LLMs)的培訓中。他們提出了一個名為 LLM²(LLM-squared)的自我改進過程,旨在利用LLMs 來自動化地發現和最佳化培訓LLMs 的演算法。 Sakana AI 的最新報告展示了他們使用LLMs 來合成新的偏好優化演算法的成果,並提出了一種名為 Discovered Preference Optimization(DiscoPOP)的演算法。
論了人工智慧(AI)系統的紅隊測試(red teaming)挑戰,總結了不同的紅隊測試方法,並強調了建立標準化實踐和政策建議的重要性。
文章指出了AI 領域缺乏標準化紅隊測試實踐的問題,並強調了需要建立這些實踐和標準的緊迫性。接著,文章詳細描述了多種紅隊測試方法,包括:
透過輸入音訊讓臉部照片開始說話,並且有對於的表情。看起來效果很自然。
採用端到端的擴散範式,引入了分層的音訊驅動視覺合成模組,以提高音訊輸入與視覺輸出之間的對齊精度,包括唇部、表情和姿勢的運動。
分層音訊驅動的視覺合成模組提供了對表情和姿勢多樣性的自適應控制,更有效地實現了針對不同身分的個人化客製化。
TC-Bench 一個影片產生模型的測試集,用來測試影片產生模型的時間組合性。評估產生的影片應像現實世界的影片一樣,隨著時間推移,包含新概念的出現及其關係的變化。
測試分析結果:
大多數視訊生成器實現的組合變化不到20%,目前的視訊生成模型在解釋組合變化的描述和動態地映射不同時間步驟的語義方面存在困難。
提出了一種新穎的架構Pixel Transformer(PiT),它能夠直接將每個像素作為token輸入到Transformer中,而無需先將圖片分割成patch。
PiT的好處在於,它去除了convolution和patchification這兩個步驟中隱含的局部性偏壓(locality bias),讓模型能夠從像素級別自主學習特徵表示。
實驗證明,PiT在影像分類、自我監督學習、影像生成等任務上都取得了優於ViT的結果。
字节发布Depth Anything V2深度模型。比 Depth Anything V1 更精细的细节。与基于 SD 构建的模型相比效率显著更高(快了10倍以上)且更准确。提供了不同规模的模型(参数从25M到1.3B不等),以支持各种应用场景。
透過三個關鍵實踐產生了更精細和更魯棒的深度預測:
隨著視訊生成模型的不斷成熟,視訊控制的方式的研究也越來越重要。
上海人工智慧實驗室這個研究可以**從參考影片中克隆動作來控製文字生成的影片。 **從簡報來看效好,有沒有因為原始影片的風格或內容污染。
採用時間注意機制在影片反轉過程中表示參考影片中的動作,並引入主要時間注意引導以減輕注意權重中的噪音或細微動作的影響。
提出了一種位置感知語義引導機制,該機制利用參考影片中前景的粗略位置和無分類器引導特徵來引導視訊生成。
這篇論文提出了一種新方法,透過大語言模型自動發現和生成高性能的偏好優化目標函數,而無需專家人工設計。具體來說,他們反覆提示語言模型根據先前評估的性能指標,輸出新的候選目標函數的程式碼實現。透過這個迭代最佳化過程,成功發現了一些先前未知但表現優異的偏好最佳化演算法。其中表現最好的演算法被命名為DiscoPOP,它自適應地混合了logistic loss和exponential loss。實驗顯示,DiscoPOP在基準測試和實際任務中都取得了業界領先的效能。
由大型語言模型(LLM)提供支援的語言代理作為遊戲和程式設計等領域的決策工具越來越有價值。然而,這些代理商經常面臨在沒有詳細說明的情況下實現高級目標以及適應回饋延遲的環境的挑戰。在本文中,我們介紹了SelfTarget,這是一種新穎的自動方法,旨在增強代理人在有限的人類先驗和環境回饋的情況下實現高級目標的能力。 SelfTarget的核心概念涉及在與環境互動期間自適應地將高階目標分解為更實用的子目標的樹狀結構,同時確定最有用的子目標並逐步更新該結構。實驗結果表明,SelfTarget顯著增強了語言代理在各種任務中的表現,包括競爭、合作和延遲回饋環境。
他們沒有透過音訊驅動,而是做了面部表情的遷移,可以將任何人的面部表情遷移到對應的照片上生成影片。
這樣不止可以生成說話的視頻,即使沒有聲音只有表情也可以同步的很好。
包括真人、卡通、雕塑甚至動物,都可以很好的遷移。