参数最高达300亿!苹果最新多模态大模型MM1曝光

更新於 2024/03/19閱讀時間約 4 分鐘

一直“沉默”的苹果突然爆出在人工智能研究上取得了重大突破。

多模态大模型MM1

上周,苹果的研究团队在arxiv.org上发布了一篇题为《MM1: Methods, Analysis & Insights fromMultimodal LLM Pre-training》的研究论文。

苹果多模态模型论文

苹果多模态模型论文

在论文的摘要中,苹果的研究团队表示:“我们证明,对于大规模多模态预训练,使用图像标题、交错图像文本和纯文本数据的仔细组合对于在多个基准上实现最先进的少数镜头结果至关重要。“

摘要还提到:“得益于大规模的预训练,MM1具有增强的上下文学习和多图像推理等吸引人的特性,可实现少量的思维链提示。”这表明其能够使用少量“思维链”提示对多个输入图像进行多步推理,同时也意味着其多模态大模型有可能解决需要基础语言理解和生成的复杂、开放式问题。

根据论文的介绍,MM1具有三种大小:30亿、70亿和300亿参数。研究人员利用这些模型进行实验,找出影响性能的关键因素。

有趣的是,图像分辨率和图像标记的数量比视觉语言连接器的影响更大,并且不同的预训练数据集可以显着影响模型的有效性。“我们证明,图像编码器、图像分辨率和图像标记计数具有重大影响,而视觉语言连接器设计的重要性相对则相对较小。”

研究团队采用“Mixture of Experts”架构和“Top-2 Gating”方法精心构建了MM1。这种方法不仅在预训练基准中产生了优异的结果,而且在现有的多模式基准上也转化为强大的性能。即使针对特定任务进行微调后,MM1模型仍保持有竞争力的性能。

“通过扩展所介绍的方法,我们建立了MM1,这是一个多模态模型系列,参数多达300亿,由密集模型和混合专家模型(MoE)变体组成,在预训练指标上达到了最高水平,并在一系列既定的多模态基准上经过监督微调后获得了具有竞争力的性能。”

测试表明,MM1-3B-Chat和MM1-7B-Chat型号的性能优于市场上大多数类似尺寸的竞争对手。这些模型在VQAv2(基于图像和文本的问答)、TextVQA(基于图像的文本问答)和 ScienceQA(科学问答)等任务中尤其出色。

苹果多模态大模型论文

苹果多模态大模型论文

然而,MM1的整体性能还没有完全超越谷歌的Gemini或OpenAI的GPT-4等全球顶尖模型。虽然MM1可能还不是绝对的领导者,但它仍然是苹果在人工智能领域的重大飞跃。

正如苹果研究人员所说,MLLM(多模态大语言模型)已经成为继传统 LLM(大语言模型)之后“基础模型的下一个前沿”,并且它们“实现了卓越的功能”。

苹果的“奋力追赶”

MM1研究发布之际,苹果一直在加大对人工智能的投资,以追赶谷歌、微软和亚马逊等科技企业。这些企业在将生成式人工智能功能集成到其产品中方面已经取得了领先地位,相比之下,苹果却迟迟拿不出具有竞争力的成果。

有消息人士称,苹果正在开发一个名为“Ajax”的大型语言模型框架,以及一个内部称为“Apple GPT”的聊天机器人。目标是将这些技术集成到Siri、Message、Apple Music和其他应用程序和服务中。例如,人工智能可用于自动生成个性化播放列表,协助开发人员编写代码,或进行开放式对话和任务完成。

“我们将人工智能和机器学习视为基础技术,它们几乎是我们推出的每一款产品中不可或缺的一部分。”苹果首席执行官蒂姆·库克(Tim Cook)在最近的财报电话会议上对分析师表示,“我不会详细说明它是什么……但可以肯定的是,我们会投资,我们会投入相当多的资金,我们会负责任地去做,而且随着时间的推移,你会看到产品的进步,而这些技术正是产品的核心。”

他还在电话会上表示,“我们很高兴能在今年晚些时候分享我们正在进行的人工智能工作的细节。”因此,许多人推测苹果有可能在今年6月份的全球开发者大会上,推出新的人工智能功能和开发者工具。

与此同时,苹果研究实验室推出的Keyframer动画工具和性能增强等较小的人工智能进展也表明,苹果正在默默进步。

#苹果##人工智能##AI##大模型#

    avatar-img
    0會員
    152內容數
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    Stefan Lee的沙龍 的其他內容
    当地时间3月14日,明星初创公司Figure发布了首个接入了OpenAI大模型的机器人demo——Figure 01,这也是该公司与OpenAI合作增强人形机器人能力的首批成果。
    距离iPhone 16发布还有半年时间,新消息的流出也越来越多。
    据媒体报道,由于中国市场的电动汽车制造商的竞争加剧,日本汽车巨头日产汽车(Nissan)和本田(Honda)正考虑削减在中国的产量。
    微软(股票代码:MSFT)公司近日面临一项内部爆料,一名人工智能工程师声称公司的人工智能图像工具可能会生成具有暴力和色情性质的图像,或对社会造成潜在危险。 据资深软体工程经理Shane Jones透露,他在致联邦贸易委员会(FTC)和微软董事会的信函中表达了对微软“负责任人工智能”策略的质疑。
    3月7日,哔哩哔哩(以下简称“B站”)公布了截至2023年12月31日止第四季度及财年业绩报告。 亏损大幅收窄 业绩数据显示,2023年第四季度净营业额总额为63亿元,同比增加3%。毛利润为17亿元,同比增加33%,毛利率为26.1%,已经连续6个季度出现提升。 盈亏方面,B站称,第四季度公司
    3月5日,电动汽车品牌蔚来公布了2023年第四季度及全年业绩。
    当地时间3月14日,明星初创公司Figure发布了首个接入了OpenAI大模型的机器人demo——Figure 01,这也是该公司与OpenAI合作增强人形机器人能力的首批成果。
    距离iPhone 16发布还有半年时间,新消息的流出也越来越多。
    据媒体报道,由于中国市场的电动汽车制造商的竞争加剧,日本汽车巨头日产汽车(Nissan)和本田(Honda)正考虑削减在中国的产量。
    微软(股票代码:MSFT)公司近日面临一项内部爆料,一名人工智能工程师声称公司的人工智能图像工具可能会生成具有暴力和色情性质的图像,或对社会造成潜在危险。 据资深软体工程经理Shane Jones透露,他在致联邦贸易委员会(FTC)和微软董事会的信函中表达了对微软“负责任人工智能”策略的质疑。
    3月7日,哔哩哔哩(以下简称“B站”)公布了截至2023年12月31日止第四季度及财年业绩报告。 亏损大幅收窄 业绩数据显示,2023年第四季度净营业额总额为63亿元,同比增加3%。毛利润为17亿元,同比增加33%,毛利率为26.1%,已经连续6个季度出现提升。 盈亏方面,B站称,第四季度公司
    3月5日,电动汽车品牌蔚来公布了2023年第四季度及全年业绩。
    你可能也想看
    Google News 追蹤
    Thumbnail
    *合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
    Thumbnail
    徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
    Thumbnail
    根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
    有點意外很多人這都不會就進場。索性做成影片。 油管連結: https://youtu.be/1l8H0NvCkig 抖音連結: https://vt.tiktok.com/ZS8qqHRhM/
    Thumbnail
    過年大家都想買個樂透沾沾喜氣,順便看看自己是否是那位頭獎的幸運兒 那股票中的幸運是怎麼回事呢? 這邊有三種幸運的類型可參考 第一種幸運是隨機性的幸運, 四個人打麻將,為啥你牌最好? 大樂透頭獎為啥是你重? ---這幸運是人人都有的,最不可控,用處也最小。 第二種好運是碰撞出來的幸運 你沒有去翻
    Thumbnail
    最近好忙r 不過還是想寫下實習時遇到兩件重要的事
    除非您天生有盤感, 像我這種沒天分的, 期權商品的短線操作, 不免要藉用一些技術分析指標, 來相對客觀地告訴我當下該怎麼做; 由於已經規則化的關係, 甚至也可以做成全自動化下單交易. 但期商看盤系統附贈的指標多達百種, 到底哪一種比較好? 不知各位有無看過電視上的波浪大師, 知道他是怎麼做分析的嗎?
    Thumbnail
    朋友問我,何謂幸福的人生? 專職special nurse的她,照護企業家的晚年生活,也結識富太太們。她說,越是深入那些貌似璀璨華美的生命歷程,越是懷疑世上沒有所謂的幸福;資產上億的富豪,因焦慮而夜不成寐,長期服用安眠藥及精神病藥物後,導致終日恍惚,神識不清輾轉入住醫院;而面貌姣好,氣質溫婉的貴婦,
    Thumbnail
    引擎常見參數: 1. 空燃比(Air Fuel Ratio, AFR) 2. 容積效率(Volume Efficiency, VE) 3. 點火正時 (Engine Spark Timing, EST)
    Thumbnail
    li案例練習:坂茂-韓國九橋高爾夫球俱樂部 這次練習建模的案例是坂茂設計的九橋高爾夫球俱樂部。他接待區的設計原理是利用投影線稿至漏斗型的支撐住上面,將板元素與柱元素融何在一起。
    Thumbnail
    minimal surface 極小曲面 前言:這是一篇很無聊的文章ㄛ  大自然時常是人類在科技發展過程的參考依據,幾何學出現後(註一),在自然界找到繁多算式去探索它,例如常見的畢氏、Pi、球體積、座標系統等,這也是進行參數建築很關鍵的思考模式。
    Thumbnail
    經歷了大四下實習過後,重新打破一些自以為是,好好吸收知識與面對真實。以下為個人對數位建築一些淺見,怕忘記了,要寫下來,更希望有人能跟我討論。 數位化:統稱利用電腦輔助設計就稱為數位化 參數化:修改數據,通過算式以改變形體 利用電腦程式作為媒介的想法 過去比較常見的設計思考偏向線性式的
    Thumbnail
    *合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
    Thumbnail
    徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
    Thumbnail
    根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
    有點意外很多人這都不會就進場。索性做成影片。 油管連結: https://youtu.be/1l8H0NvCkig 抖音連結: https://vt.tiktok.com/ZS8qqHRhM/
    Thumbnail
    過年大家都想買個樂透沾沾喜氣,順便看看自己是否是那位頭獎的幸運兒 那股票中的幸運是怎麼回事呢? 這邊有三種幸運的類型可參考 第一種幸運是隨機性的幸運, 四個人打麻將,為啥你牌最好? 大樂透頭獎為啥是你重? ---這幸運是人人都有的,最不可控,用處也最小。 第二種好運是碰撞出來的幸運 你沒有去翻
    Thumbnail
    最近好忙r 不過還是想寫下實習時遇到兩件重要的事
    除非您天生有盤感, 像我這種沒天分的, 期權商品的短線操作, 不免要藉用一些技術分析指標, 來相對客觀地告訴我當下該怎麼做; 由於已經規則化的關係, 甚至也可以做成全自動化下單交易. 但期商看盤系統附贈的指標多達百種, 到底哪一種比較好? 不知各位有無看過電視上的波浪大師, 知道他是怎麼做分析的嗎?
    Thumbnail
    朋友問我,何謂幸福的人生? 專職special nurse的她,照護企業家的晚年生活,也結識富太太們。她說,越是深入那些貌似璀璨華美的生命歷程,越是懷疑世上沒有所謂的幸福;資產上億的富豪,因焦慮而夜不成寐,長期服用安眠藥及精神病藥物後,導致終日恍惚,神識不清輾轉入住醫院;而面貌姣好,氣質溫婉的貴婦,
    Thumbnail
    引擎常見參數: 1. 空燃比(Air Fuel Ratio, AFR) 2. 容積效率(Volume Efficiency, VE) 3. 點火正時 (Engine Spark Timing, EST)
    Thumbnail
    li案例練習:坂茂-韓國九橋高爾夫球俱樂部 這次練習建模的案例是坂茂設計的九橋高爾夫球俱樂部。他接待區的設計原理是利用投影線稿至漏斗型的支撐住上面,將板元素與柱元素融何在一起。
    Thumbnail
    minimal surface 極小曲面 前言:這是一篇很無聊的文章ㄛ  大自然時常是人類在科技發展過程的參考依據,幾何學出現後(註一),在自然界找到繁多算式去探索它,例如常見的畢氏、Pi、球體積、座標系統等,這也是進行參數建築很關鍵的思考模式。
    Thumbnail
    經歷了大四下實習過後,重新打破一些自以為是,好好吸收知識與面對真實。以下為個人對數位建築一些淺見,怕忘記了,要寫下來,更希望有人能跟我討論。 數位化:統稱利用電腦輔助設計就稱為數位化 參數化:修改數據,通過算式以改變形體 利用電腦程式作為媒介的想法 過去比較常見的設計思考偏向線性式的