2024-07-06|閱讀時間 ‧ 約 37 分鐘

AIGC Weekly #78 | 人工智慧熱點新聞摘要

上週精選✦

Figma Config 大會發布多項AI能力

Figma 上週發表會終於帶來了一大波更新,飽受詬病的UI 介面升級,一大堆AI 功能以及PPT 製作和演示的能力。

AI 能力的話跟我們預期的都差不多,沒有驚喜:

  • AI 自動產生設計稿:輸入文字需求後Figma 會自動擷取所需的設計資源產生設計稿。從已經開通權限的人嘗試視頻來看,不支援使用自己的設計系統。
  • AI 自動產生互動原型:不需要自己連線,AI 可以自動連結適當的設計稿頁面產生互動原型。
  • AI 自動整理與優化設計稿:
    • 上傳圖片自動搜尋類似的元件和頁面設計稿
    • AI 可以自動重新命名所有的圖層名稱
    • 自動表格、清單和卡片填入虛擬內容
    • 上傳後的圖片支援一件摳圖去背景
    • 支援一鍵將所有設計翻譯為別的語言

AI 能力目前沒有全部開放,只提供給有限的使用者測試。

他們還發布了一個最應該發布的能力PPT 創建和演示功能Figma Slides,現在不需要了進入Figma Slides 之後可以在PPT 編輯和畫布編輯之間切換,演示需要的功能也都有。目前測試階段免費,後續6 美元一個月也不貴。


Google 開源了Gemma 2 的9B 和27B 版本

谷歌宣布全球推出Gemma 2,這是一款性能卓越、高效的開源模型,旨在幫助解決人類面臨的一些最迫的問題。 Gemma 2 有兩種規格,分別為90 億和270 億參數,它們在推理效率和性能上都有顯著提升,尤其是270 億參數的版本,性能甚至能與更大的模型競爭,同時降低了部署成本。

Gemma 2 支援多種硬體和AI 框架,包括Hugging Face Transformers、JAX、PyTorch 和TensorFlow 等,使得模型能夠在不同的環境中快速運作。

此外,Google還提供了Gemma Cookbook,包含了實用的範例和指南,幫助使用者建立應用程式並針對特定任務微調模型。


Claude 更新Projects 功能

Claude 上週更新了Projects 功能,適用於所有專業版和團隊版客戶,使用Claude 3.5 Sonnet提供服務。

每個Projects包括一個200K 的上下文窗口,相當於一本500 頁的書,因此使用者可以添加所有相關文件、程式碼和見解。

同時也可以為每個Projects自訂對應的提示詞,包括指示Claude使用更正式的語調或從特定角色或行業的視角回答問題。

Claude 團隊用戶還可以將與Claude 的最佳對話的快照分享到團隊的共享專案活動動態中。

Artifacts 加上Projects 讓Claude 產品體驗變的非常好,他們在做產品上選擇了跟Open AI 完全不一樣的路線,Open AI 完全是為了提高滲透率和獲取數據設計的,Claude 在體驗和這兩者取得了更好的平衡。


其他動態✦

  • Luma 上線了首尾幀生成視頻的能力。
  • Gemini 1.5 Pro上200 萬Token 上下文向所有開發者開放。
  • character ai 的語音通話功能全量上線了需要在app 體驗。
  • Etched發布了號稱史上最快的AI 晶片Sohu,Sohu 每秒運行Llama 70B 超過500,000 個Token*。一台8xSohu* 伺服器可取代160 台H100。
  • Comfy org Invoke 和Civitai一起發起了開放模型倡議。致力於打造與閉源模型和工作流程具有相同或更高品質的開源模型。
  • Chrome 已經可以使用本地的Gemini 模型了。只需要兩行程式碼就能調用
  • Open AI 收購了多人協作工具Multi
  • 位元組發布了Marscode,一個線上的AI IDE 工具,提供程式碼自動完成、產生、解釋、調試、插件開發與部署等功能。

產品推薦✦

Respired:社群媒體大量管理

一個針對新創企業的AI 驅動的社群媒體管理平台,透過分析、內容創作、多通路調度和效能分析等功能,幫助企業有效率地管理社群媒體,

  • 多通路社群媒體管理: 此平台支援在多個社群媒體管道上調度內容,幫助企業保持一致和有影響力的社群媒體存在。
  • 詳細的分析與優化工具: Respired.io 提供詳細的效能分析,幫助企業根據關鍵指標優化社群媒體策略。

Mojo:製作Logo 動畫

用Animatediff 和Controlnet 製作Logo 動畫,這個流程早就有了,沒想到這個也能打包成產品,從Demo 來看優化的不錯。



Eureka:第一位AI 醫生專注於糖尿病和甲狀腺疾病

可以在現實世界中下訂單實驗室並提供護理。它像醫療保健提供者一樣由健康保險覆蓋,並已經在美國與甲狀腺患者合作。它比美國大多數護理快90 倍,9 成用戶希望繼續使用Eureka 的建議。

Eureka 像醫生一樣思考,像偵探一樣推理。在任何護理開始之前,經過董事會認證的醫生會審查尤里卡的建議,以確保一切井然有序。目前專注於內分泌疾病,如甲狀腺問題和糖尿病。



Ario:忙碌父母的人工智慧助手

Ario 是一款專注於幫助使用者處理日常瑣事的人工智慧助理。它能夠提前通知使用者子女的牙醫預約是否與工作會議衝突,根據孩子的興趣愛好推薦夏季活動,以及在女兒生日一個月前提供個人化的派對建議。 Ario 還能與亞馬遜帳戶同步,確保用戶不會錯過退貨期限。



WOJAK MEME GENERATOR: meme圖片產生器

上週很火紅的一個小工具,由Glif 開發的完全自動化的Wojak meme生成器。效果很好。



精選文章✦

Andrej Karpathy 在UC Berkeley 的演講

認為我們正進入一個新的計算時代,類似1980年代的電腦革命。將大語言模型比喻為新的"作業系統",處理tokens而非bytes。提到電影《她》,展示了AI在情感智能方面的潛力。引用電影《我,機器人》,探討了AI廣泛應用可能帶來的社會影響。

扭轉人工智慧局面-iA

現在每家公司的產品都在利用AI 直接給出答案。讓使用者跳過思考的過程。著名的寫作工具iA 想反過來用AI 幫助你思考。

  1. 不要問人工智慧,讓人工智慧問你:讓ChatGPT 提示我們。讓AI 向你詢問有關你所寫內容的問題。督促自己清楚表達自己真正想說的話。例如:我想寫關於[主題]的[格式]。一次問一個問題,迫使我解釋我的想法。
  2. 不要賣偷來的東西-自己創作:如果ChatGPT產生了我想保留的有用內容怎麼辦?可以將它作為註釋粘貼,並標記為AI生成。使用引號和標記,並註明其來源。
  3. 不要模仿。要創造:如果人工智慧正好說出了我想說的話怎麼辦?重新思考並用自己的話來表達。先問問生成的內容是否真的正確。

從「文風測試」到「 OC 分析」,AI產品的一波流也有春天

王登科把這種一波流AI 小工具總結了一套方法論出來,可以持續產出爆款還是挺強的能力。

介紹了兩個AI 產品—— 文風測試和OC 分析—— 的創意、開發、流行和商業化過程,以及它們如何以低成本和小模型實現大規模用戶接入和產品傳播。

  • AI 產品不一定需要大模型: 文風測試和OC 分析的成功展示了小模型在特定場景下的高效和低成本,反對了大模型無腦使用的趨勢。
  • 使用者興趣是產品流行的關鍵: 這兩個產品的流行表明,從使用者的興趣和需求出發,即使是簡單的工具也能獲得廣泛的關注和使用。
  • 產品的「一波流」 特性: AI 產品可能會有明顯的流行週期,但即使是短暫的流行也能帶來實際的商業價值和用戶成長。
  • AI 產品的商業化並非唯一目標: 主創團隊的純粹興趣驅動和對科技的熱愛也是產品成功的重要因素之一。
  • AI 內容產品的未來可能性: 作者認為,AI 產品如果能夠從真實的需求出發,即使是單一形態或一波流,也有可能成為爆款,並且這種成功是可以復現的。

蘋果智能和AI 極簡主義

蘋果在人工智慧領域倡導了一種與AI 極大主義相對立的策略,認為生成式AI 應該作為基礎設施而非平台或產品,強調將AI 整合到設備中,以提供新的功能和能力。

  • 蘋果認為生成式AI 應該作為基礎設施,而非獨立的產品或平台。
  • 蘋果的AI 策略強調將AI 整合到裝置中,利用裝置上的使用者情境來提供個人化的功能。
  • 蘋果區分了上下文模型和世界模型,後者可能會成為可互換的插件。
  • 蘋果的策略可能會減少對雲端運算的依賴,推動AI 技術的商品化。
  • OpenAI 在與蘋果合作中的地位並不穩固,蘋果可能會將更多功能轉移到自己的模型上。
  • AI 技術的未來可能不會有一個單一的贏家,而是會有多個參與者共存。
  • 蘋果的AI 晶片和軟體棧的發展可能會推動更多的AI 運算從雲端轉移到邊緣設備。

I Will Fucking Piledrive You 如果你再提AI 的話

作者是一位資料科學家,對AI 技術的最近進展持懷疑態度,批評了AI 技術在商業領域的盲目追求和過度推廣,強調企業應該解決基礎問題和文化問題,而不是盲目投入AI 專案。

  1. AI 技術的進步並不意味著所有公司都需要投入AI 專案:作者認為,儘管AI 技術有其潛力,但許多公司在追求AI 技術時缺乏明確的目標和實際需求。
  2. 企業應該優先解決基礎問題和文化問題:在談論AI 之前,企業應該先專注於如何改善營運效率和公司文化,而不是追求未經證實的AI 解決方案。
  3. AI 技術的推廣往往充滿虛假宣傳和不切實際的期望:作者批評了AI 技術在商業領域的盲目推廣,指出許多AI 項目和演示是虛假的,沒有達到宣傳的效果。
  4. AI 技術的應用需要謹慎考慮,而不是盲目跟風:作者認為,企業在考慮使用AI 技術時,應該有明確的用例和目標,而不是僅僅因為AI 是一個熱門話題而去追求。
  5. AI 技術可能不會像人們預期的那樣改變世界:作者提出了對AI 技術未來發展的三種可能情況,並強調,即使AI 技術取得了突破,也不一定意味著它會在所有領域產生深遠影響。
  6. AI 技術的過度推廣可能導致資源的浪費:作者認為,企業在AI 技術上的過度投資可能會導致對其他更重要社會問題的資源忽視。

驚喜,你的資料倉儲可以用於RAG

介紹如何利用現有的資料倉儲功能建構一個簡化的、基於RAG 的AI 系統。

  1. 資料成熟度是實施RAG 的關鍵: 在投資RAG 之前,組織需要確保已經建立了一定的資料基礎設施,包括日誌、ETL、分析和儀表板等。
  2. RAG 管道的建構需要明確的評估和測試: 在實施RAG 之前,應該建立一個評估框架,並對假設進行測試,以確保RAG 的實施能夠提高結果的品質。
  3. 資料倉儲的先進功能可以簡化RAG 管道: 利用資料倉儲(如BigQuery)的先進功能,如計算文字嵌入、創建向量索引和進行最近鄰向量搜索,可以簡化RAG 管道的構建,減少對外部系統的依賴。
  4. 文字嵌入式搜尋與關鍵字搜尋的權衡: 雖然文字嵌入式搜尋在處理複雜查詢時效果更好,但關鍵字搜尋更為簡單直接。在某些情況下,可以考慮使用混合搜尋策略。
  5. RAG 管道的實施應該根據組織的實際情況而定: 不同的組織可能適合不同的解決方案。在選擇是否使用資料倉儲建置RAG 管道時,應考慮成本、延遲和系統複雜性等因素。

ESM3:用語言模型模擬5億年的演化

EvolutionaryScale 公司推出了ESM3,一個前沿的生物學語言模型,能夠模擬5 億年的進化過程,透過對序列、結構和功能進行多模態推理,產生新的蛋白質,為醫藥、生物技術和清潔能源等領域的研究提供了強大的工具。

ESM3 透過多模態推理能力,使得科學家能夠以前所未有的精度控制新蛋白質的生成。例如,透過多模態提示,ESM3 能夠為PETase 的活性部位設計一個潛在的骨架,這是一個能夠分解聚偏二酸(PET)的酶,對於減解塑膠垃圾具有重要意義。

EvolutionaryScale 公司也展示了ESM3 如何透過模擬5 億年的演化過程來產生新的螢光蛋白(GFP)。透過對自然GFP 核心殘基結構的推理,ESM3 能夠產生新的GFP 候選蛋白,其中一種蛋白質esmGFP 與自然界中最接近的螢光蛋白序列相比,相似性僅58%。這種蛋白質的生成,相當於模擬了超過5 億年的自然演化過程。

重點研究✦

Adam-mini:使用更少的學習率獲得更多

Adam-mini可以大幅優化模型訓練的效率:將AdamW的記憶體佔用減少了45%-50%。

同時在大型語言模型的預訓練、微調和RLHF任務上,達到了與AdamW相當或更好的性能。

Adam-mini顯著提高了訓練吞吐量,例如在Llama2-7B預訓練中比AdamW快49.6%。

Adam-mini的核心思想是:

減少Adam中學習率資源的使用,透過根據Hessian矩陣結構將參數分成區塊,並為每個區塊分配單一但有效的學習率。

用GPT-4 找出GPT-4 的錯誤

已經離職的OpenAI超級對齊負責人Jan Leike的研究。

基於人類回饋的強化學習(RLHF)本質上受限於人類評估模型的能力——它無法很好地擴展。

可擴展監督的目的是透過使用AI來幫助人類進行評估,從而解決這個問題。浴室嘗試了一個最簡單的想法:訓練一個評論員來指出缺陷。

直觀地看,確認一個缺陷應該比找到它更容易。

實際上,用RLHF訓練的代碼評論員找到了比人類訓練師更多的錯誤。

它甚至可以在四分之一的ChatGPT生產數據中發現人類評為完美的缺陷(不僅限於代碼)。

研究程式碼,因為它是一個目前模型可以幫助解決的實際任務,但這些技術可以應用於任何任務。

AuraSR:影像超分模型

AuraSR,一個從GigaGAN 論文中衍生出的具有6 億參數的上採樣模型。

模型完全開源,可以將圖片放大四倍並且補充細節,也可以重複放大。

從演示和我自己嘗試的效果來看相當不錯,速度也很快,非寫實內容也可以處理。

MOFA-Video:多種方式混合的視訊控制

騰訊開源了一個非常全面的視訊控制方式MOFA-Video

支援透過箭頭控制影片內容的移動方向,類似運動筆刷。

也支援將原有影片的臉部表情移至新生成的人臉影片。

上面兩種控制方式也可以同時在一個畫面中使用。

為了實現這兩種控制,他們設計了多個領域感知運動適配器,用於控制視訊生成過程中的運動。

EvTexture:影片超分項目

隨著影片生成的不斷成熟,影片超分演算法也越來越重要,目前的超分工具在細節補充上都不太好。

EvTexture 這個影片超分演算法可以非常好的補充影片缺少的的細節和紋理,專案將會開源。

透過利用事件訊號的高頻細節,更好地恢復視訊超解析度中的紋理區域。

Meta LLM Comp iler:在程式碼最佳化和編譯器推理方面擊敗了GPT 4

這是一套強大、開放可用的、專為程式碼最佳化任務設計的預訓練模型。

LLM編譯器建立在Code Llama 的基礎上,增強了對編譯器中間表示(IRs)、組合語言和最佳化技術的理解。該模型已經在包含5460 億個LLVM-IR 和彙編程式碼標記的龐大語料庫上進行了訓練,並經過指令微調以解釋編譯器行為。

Cambrian 1 - Vision Multimodal LLM

紐約大學發布Cambrian 1 - Vision Multimodal LLM,擊敗了幾乎所有8-34B 的其他閉源競爭者。

研究使用LLMs和視覺指導調整作為接口,評估各種視覺表示,為不同模型和架構提供新的見解--基於對超過20 個視覺編碼器進行實驗,包括自監督、強監督或二者的組合。

對現有的MLLM 基準進行了批判性審查,解決了整合和解釋來自各種任務結果的困難,並引入了一個新的以視覺為中心的基準,CV-Bench。為了進一步改善視覺基礎。

提出了空間視覺聚合器(SVA),這是一個動態的、具有空間意識的連接器,將高解析度的視覺特徵與LLMs整合在一起,同時減少令牌數量。

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.