jing'xi為大家鏈接都是可以點擊看到原文的哦
Anthropic 雖然關注LLM 的可解釋性並且在上面投入了非常多的資源,但是看起來並沒有影響他們的研發進度,在GPT-4o 推出一個月之後就推出了和4o 差不多的Claude 3.5 Sonnet,不知道3.5 Opus 會有多強。
Anthropic 推出了Claude 3.5更新,首先更新的是Claude 3.5 Sonnet。
Claude 3.5 Sonnet 在評分上已經全面超過了Claude 3 Opus。 跟GPT-4o比就MMLU差一些。而且Claude 3.5 Sonnet 現在可以免費使用
Claude 3.5 Sonnet 的運行速度是Claude 3 Opus 的兩倍。在主動編碼評估中,Claude 3.5 Sonnet 解決了64%的問題,而Claude 3 Opus 解決了38%。
另外Claude. ai也推出了新的互動方式Artifact。
當使用者要求Claude 產生程式碼片段、文字檔案或網站設計等內容時,這些Artifact 將出現在他們的對話旁的專用視窗中。
在這裡他們可以即時地看到、編輯和建構Claude 的創作,並將AI 生成的內容無縫地整合到他們的專案和工作流程中。
這個功能對於許多沒有程式碼編譯環境的一般使用者來說非常好用,立刻可以獲得程式碼的運行結果,甚至可以快速做一些小的Demo。
在可靈和Luma 的壓力下,沉寂了半年的影片生成龍頭Runway 終於坐不住了,發布了自己的DiT 影片生成模型Gen-3。
從Demo 和一些內部人員發布的影片來看,模型生成的影片品質甚至比Sora 還要高很多,主要在美學表現和光影表現上。
基於影片和影像的聯合訓練,Gen-3 Alpha 將為Runway 的文字轉影片、影像轉影片和文字轉影像工具提供動力,現有的控制模式例如Motion Brush、高級攝影機控制、導演模式,以及即將推出的更精細控制結構、風格和動作的工具。
模型的主要特點有:
同時Gen-3 也支援對模型進行更細力度的微調,實現更風格統一和一致的角色,並且針對特定的藝術和敘事需求等功能進行定位。不過這個是2B 的能力,用來服務各種影視公司的。
Deepseek 上週也發布了他們的DeepSeek-Coder-V2 程式碼模型,總參數236B,啟動21B。在程式碼能力上超過了GPT-4 turbo,僅次於GPT-4o。
模型還是開源的,主要有兩個模型:
除了程式碼模型本身外他們還在自己的模型測試平台上快速適應了類似Artifact 的程式碼自動渲染功能。
在輸出程式碼結束後點擊運行,這功能就會把程式碼渲染成網頁或圖表。
Ilya 從Open AI 走了以後的去向終於確定了,這下真是三家分晉了,原來的的Open AI 分裂成了SSI 以及Anthropic。
SSI 全稱為Safe Superintelligence Inc,這個」安全的超級智慧」名字就是他們的使命、名字以及全部產品的路線圖,這是唯一的關注點。
另外Ilya接受的彭博社的一篇訪談也透露了這個公司一些其他的資訊:
Meta 上週集中發布了四個開源模型,分別是:
主要特點是可以根據使用者的搜尋內容快速產生對應的內容頁面。
Genspark 是一個AI 智能體引擎,能夠基於使用者的查詢即時產生自訂頁面,稱為Sparkpages。
這些頁面是動態生成的,將網路知識精煉並整合為一個完整的頁面。每個Sparkpage 都內建了一個AI 副駕駛,透過回答使用者的問題和提供客製化的資訊來幫助使用者。
Hedra 的目標是透過創新技術賦予創作者完全的創意控制權,讓他們能夠想像和創造世界、角色和故事。
Character-1 是Hedra 推出的一個工具,它能夠生成具有表現力和可操控性的人物視頻,為創作者提供了一個新的視覺故事講述平台。
Hedra 計劃推出「Worlds」 功能,這將使用戶能夠建立自己的虛擬世界,進一步擴展了創作者的創造空間。
Dot 是由New Computer 公司開發的AI 伴侶應用程式。該應用程式由Jason Yuan(前蘋果設計師)和Sam Whitmore(工程師)共同創立,並獲得了來自Lachy Groom、OpenAI Fund 和South Park Commons 等的370 萬美元融資。
Dot 的獨特之處在於它能夠記憶使用者的對話,並透過這些對話建立對使用者的深入理解。它不僅僅是一個更聰明的搜尋引擎,而是一個關係式AI 的早期體現。 Dot 使用多達7-10 個不同的LLMs 和AI 模型,包括OpenAI、Anthropic 和Google 的模型,以建立一個關於使用者的「心理模型」。 Dot 的設計目標是在朋友和同事之間的範圍內,提供一個溫馨、專業且敏感的伴侶。
Otto 是一個專為AI 工作設計的工具,它跳過了聊天機器人的限制,允許用戶透過定義一次表單來自動化成千上萬的任務。 Otto 提供了多種模板,如公司研究、競爭對手格局分析和外向郵件創建器,以展示用戶可以用Otto 建立的內容。
Playmaker Document AI 是一款旨在消除手動工作和最佳化文件工作流程的自動化工具。使用者可以透過電子郵件、API 或手動上傳方式提交PDF、PNG、Excel 或TXT 格式的文件。該工具能夠驗證提取的數據,確保準確性,並支援多種文件類型,如合約、發票、銀行對帳單、工資條、履歷和身分證明等。用戶可以將提取和驗證後的資料推送到超過300 個整合的系統中。
會教你從零開始建立一個專門講故事的LLM 應用,這個應用可以與AI共同創造、完善並繪製小故事。使用Python、C 和CUDA,並且只需很少的電腦科學知識。最終目標是讓你對人工智慧、LLMs和深度學習有比較深入的理解。目前只有目錄,還在施工。
在Lex Fridman 的播客中,Aravind Srinivas,Perplexity 的CEO,探討了人工智慧的未來,特別是搜尋引擎和AI 的結合。 Srinivas 強調,AI 提供的答案應該像學術論文一樣,有明確的來源支持,以提高準確性和可靠性。他也談到了Perplexity 的起源,以及公司是如何透過解決實際問題,例如健康保險的複雜性,來發展和完善其產品的。
也討論了Perplexity 與Google 在搜尋和答案提供方面的不同之處,以及Perplexity 如何透過提供直接答案和綜合資訊來挑戰傳統的搜尋引擎。他提出了關於AI 如何處理廣告和收入模式的問題,並探討了開源對AI 安全的重要性。
隨著AI 技術的發展,尤其是LLM如GPT-4 的訓練,對運算能力的需求急遽增加。文章介紹了資料中心的基本結構和運作原理,包括它們的規模、功耗、冷卻系統以及如何提高能源效率。
隨著運算需求的增加,資料中心變得越來越大,消耗的能源也越來越多,一些大型資料中心的功率需求已經達到了100 兆瓦以上。資料中心的能源消耗主要用於電腦硬體和冷卻系統,而冷卻系統的設計和效率對資料中心的運作至關重要。為了提高效率,資料中心業界引入了能耗效率指標(PUE),並透過改善設備和營運方式不斷提高資料中心的能源效率比。
Heygen 公司的使命是透過AI 取代傳統攝像頭,使影片內容創作更加普及和個人化。他們的技術可以產生全身AVATAR,並透過AI 編輯將其組合成最終影片。 Haan 公司的產品應用非常廣泛,包括行銷銷售、內部研討會、學習發展等領域,並支援將影片內容翻譯成超過175 種語言和方言。
Haygen 公司在研究和開發方面面臨的挑戰,包括將AI 模型與客戶需求相結合,以及在保持視訊品質的同時,實現大規模個人化內容的生成。他認為,AI 產生的影片內容將徹底改變企業如何透過影片成長業務、溝通和行銷。
文章詳細回顧了從2016 年到2024 年間的GTC 大會,強調了英偉達在人工智慧領域的持續創新和市場估值的大幅成長。 2016 年,英偉達推出了DGX-1 和支援NVLink 的P100 GPU,標誌著AI 領域的新時代。 2017 年,引進了Tensor 核心的V100 GPU,進一步鞏固了其在AI 領域的領導地位。到了2020 年,隨著A100 和Megatron 的推出,英偉達專注於大型語言模型(LLM)的最佳化。 2021 年,英偉達宣布開發基於ARM 架構的Grace CPU,為未來的資料中心解決方案奠定基礎。 2022 年,推出了針對LLM 最佳化的H100 GPU,以及全新升級的Omniverse 與Digital Twin 技術。這些創新不僅推動了英偉達的股價和市值大幅上漲,而且使其成為AI 浪潮的締造者之一。
這篇論文介紹了一個叫∇2DFT的新資料集,包含了大約200萬個類似藥物的分子的量子化學性質。研究人員用這個資料集測試了幾種最先進的神經網路模型,看它們在預測分子能量、原子間力和哈密頓矩陣等任務上的表現如何。他們也專門測試了這些模型在優化分子構象方面的能力。總的來說,這個資料集和基準測試為開發更好的量子化學機器學習模型提供了重要資源。
StyleGAN Inversion 是一種透過StyleGAN 生成器的潛在變數來操縱真實影像屬性的技術。研究者一直在探索如何在保證高品質影像重建的同時,實現對影像的靈活編輯。這一過程中需要平衡重建的品質和編輯的能力,以滿足不同的應用需求。
透過使用LPIPS↓ 和FID↓ 等指標進行評估,StyleFeatureEditor 在重建品質和編輯能力方面都展現了優勢。與傳統的編碼方法相比,StyleFeatureEditor 能夠更好地處理具有挑戰性的跨域範例,並且在保持高品質重建的同時,實現了高效的編輯。
這篇論文介紹了一個叫MMBench-Video的新測試集。這個測試集用來檢視AI模型看長影片的能力。它包含了600多個YouTube上的長影片,每個影片都配有好幾個問題。這些問題涵蓋了26種不同的能力,例如辨識物體、理解事件因果關係等。研究人員用這個測試集評估了市面上主流的AI模型,發現專門做視頻理解的AI模型表現並不理想,反而是一些通用的大模型表現更好。
Florence-2 是一種先進的視覺基礎模型,採用基於提示的方法來處理各種視覺和視覺語言任務。 Florence-2 可以解釋簡單的文字提示,執行標題、物件偵測和分割等任務。它利用我們的FLD-5B 資料集,其中包含了1.26 億張圖像的54 億個註釋,來掌握多任務學習。該模型的序列到序列架構使其在0-shot 和微調設定中表現出色,證明它是一個有競爭力的視覺基礎模型。
Comfyui 外掛程式位址在這裡:https://github.com/kijai/ComfyUI-Florence2
論文提出了一種名為VoCo-LLaMA的新方法,可以利用大語言模型自身的能力來壓縮圖像中的視覺訊息。
它在視覺指令調優階段引入了特殊的VoCo壓縮token,通過注意力蒸餾的方式,將語言模型對視覺token的理解遷移到對VoCo token的理解中。
這樣做可以在盡量減少訊息損失的同時,大幅度壓縮視覺token的數量,節省計算開銷。
VoCo-LLaMA還可以透過持續學習壓縮後的視訊幀序列,捕捉影片中的時序資訊。
該方法在大幅節省計算量的同時,仍然在圖像理解和視頻問答任務上取得了優異的性能。
微軟開源的一個文字編碼器Glyph-ByT5-v2。
支援使用十多種語言產生圖片。
也搭配了一個使用這個文字編碼器的SDXL 模型,可以直接產生中文海報和內容。
從示範來看排版都挺好的。