参数最高达300亿！苹果最新多模态大模型MM1曝光

Stefan Lee

更新於 2024/03/19發佈於 2024/03/19閱讀時間約 4 分鐘

一直“沉默”的苹果突然爆出在人工智能研究上取得了重大突破。

多模态大模型MM1

上周，苹果的研究团队在arxiv.org上发布了一篇题为《MM1: Methods, Analysis & Insights fromMultimodal LLM Pre-training》的研究论文。

苹果多模态模型论文

在论文的摘要中，苹果的研究团队表示：“我们证明，对于大规模多模态预训练，使用图像标题、交错图像文本和纯文本数据的仔细组合对于在多个基准上实现最先进的少数镜头结果至关重要。“

摘要还提到：“得益于大规模的预训练，MM1具有增强的上下文学习和多图像推理等吸引人的特性，可实现少量的思维链提示。”这表明其能够使用少量“思维链”提示对多个输入图像进行多步推理，同时也意味着其多模态大模型有可能解决需要基础语言理解和生成的复杂、开放式问题。

根据论文的介绍，MM1具有三种大小：30亿、70亿和300亿参数。研究人员利用这些模型进行实验，找出影响性能的关键因素。

有趣的是，图像分辨率和图像标记的数量比视觉语言连接器的影响更大，并且不同的预训练数据集可以显着影响模型的有效性。“我们证明，图像编码器、图像分辨率和图像标记计数具有重大影响，而视觉语言连接器设计的重要性相对则相对较小。”

研究团队采用“Mixture of Experts”架构和“Top-2 Gating”方法精心构建了MM1。这种方法不仅在预训练基准中产生了优异的结果，而且在现有的多模式基准上也转化为强大的性能。即使针对特定任务进行微调后，MM1模型仍保持有竞争力的性能。

“通过扩展所介绍的方法，我们建立了MM1，这是一个多模态模型系列，参数多达300亿，由密集模型和混合专家模型（MoE）变体组成，在预训练指标上达到了最高水平，并在一系列既定的多模态基准上经过监督微调后获得了具有竞争力的性能。”

测试表明，MM1-3B-Chat和MM1-7B-Chat型号的性能优于市场上大多数类似尺寸的竞争对手。这些模型在VQAv2（基于图像和文本的问答）、TextVQA（基于图像的文本问答）和 ScienceQA（科学问答）等任务中尤其出色。

苹果多模态大模型论文

然而，MM1的整体性能还没有完全超越谷歌的Gemini或OpenAI的GPT-4等全球顶尖模型。虽然MM1可能还不是绝对的领导者，但它仍然是苹果在人工智能领域的重大飞跃。

正如苹果研究人员所说，MLLM（多模态大语言模型）已经成为继传统 LLM（大语言模型）之后“基础模型的下一个前沿”，并且它们“实现了卓越的功能”。

苹果的“奋力追赶”

MM1研究发布之际，苹果一直在加大对人工智能的投资，以追赶谷歌、微软和亚马逊等科技企业。这些企业在将生成式人工智能功能集成到其产品中方面已经取得了领先地位，相比之下，苹果却迟迟拿不出具有竞争力的成果。

有消息人士称，苹果正在开发一个名为“Ajax”的大型语言模型框架，以及一个内部称为“Apple GPT”的聊天机器人。目标是将这些技术集成到Siri、Message、Apple Music和其他应用程序和服务中。例如，人工智能可用于自动生成个性化播放列表，协助开发人员编写代码，或进行开放式对话和任务完成。

“我们将人工智能和机器学习视为基础技术，它们几乎是我们推出的每一款产品中不可或缺的一部分。”苹果首席执行官蒂姆·库克（Tim Cook）在最近的财报电话会议上对分析师表示，“我不会详细说明它是什么……但可以肯定的是，我们会投资，我们会投入相当多的资金，我们会负责任地去做，而且随着时间的推移，你会看到产品的进步，而这些技术正是产品的核心。”

他还在电话会上表示，“我们很高兴能在今年晚些时候分享我们正在进行的人工智能工作的细节。”因此，许多人推测苹果有可能在今年6月份的全球开发者大会上，推出新的人工智能功能和开发者工具。

与此同时，苹果研究实验室推出的Keyframer动画工具和性能增强等较小的人工智能进展也表明，苹果正在默默进步。

#苹果##人工智能##AI##大模型#

Stefan Lee的沙龍

0會員

152內容數

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

Stefan Lee的沙龍的其他內容

Figure“人形GPT”首发：OpenAI大模型加持已进厂测试

当地时间3月14日，明星初创公司Figure发布了首个接入了OpenAI大模型的机器人demo——Figure 01，这也是该公司与OpenAI合作增强人形机器人能力的首批成果。

“iPhone 16全系配备Touch Bar”？苹果公司获得手机侧边触控新专利

距离iPhone 16发布还有半年时间，新消息的流出也越来越多。

日系车顶不住了？传日产、本田将削减在华产量

据媒体报道，由于中国市场的电动汽车制造商的竞争加剧，日本汽车巨头日产汽车（Nissan）和本田（Honda）正考虑削减在中国的产量。

微软AI工具或可生成危险图片内部工程师发出警告

微软（股票代码：MSFT）公司近日面临一项内部爆料，一名人工智能工程师声称公司的人工智能图像工具可能会生成具有暴力和色情性质的图像，或对社会造成潜在危险。据资深软体工程经理Shane Jones透露，他在致联邦贸易委员会（FTC）和微软董事会的信函中表达了对微软“负责任人工智能”策略的质疑。

B站Q4亏损大幅收窄陈睿：今年三季度有望实现盈利

3月7日，哔哩哔哩（以下简称“B站”）公布了截至2023年12月31日止第四季度及财年业绩报告。亏损大幅收窄业绩数据显示，2023年第四季度净营业额总额为63亿元，同比增加3%。毛利润为17亿元，同比增加33%，毛利率为26.1%，已经连续6个季度出现提升。盈亏方面，B站称，第四季度公司

蔚来Q4亏损再扩大价格战下被迫降低一季度指引

3月5日，电动汽车品牌蔚来公布了2023年第四季度及全年业绩。

Figure“人形GPT”首发：OpenAI大模型加持已进厂测试

当地时间3月14日，明星初创公司Figure发布了首个接入了OpenAI大模型的机器人demo——Figure 01，这也是该公司与OpenAI合作增强人形机器人能力的首批成果。

“iPhone 16全系配备Touch Bar”？苹果公司获得手机侧边触控新专利

距离iPhone 16发布还有半年时间，新消息的流出也越来越多。

日系车顶不住了？传日产、本田将削减在华产量

据媒体报道，由于中国市场的电动汽车制造商的竞争加剧，日本汽车巨头日产汽车（Nissan）和本田（Honda）正考虑削减在中国的产量。

微软AI工具或可生成危险图片内部工程师发出警告

B站Q4亏损大幅收窄陈睿：今年三季度有望实现盈利

蔚来Q4亏损再扩大价格战下被迫降低一季度指引

3月5日，电动汽车品牌蔚来公布了2023年第四季度及全年业绩。

你可能也想看

Google News 追蹤

無限智慧學院的沙龍

2023/11/02

從模型參數量與映射觀點出發，論證宇宙熱寂與大爆炸無限閉環假說

根據熱力學熵增鐵律，多數人認為宇宙會最終會進入熱寂(亂度散度最大化)，然後死去，但事實或許不然，一年有四季，日昇日落，大自然注定是生生不息，循環往復的，有鑑於近來大量閱讀AI關於模型與映射的概念，突然靈光乍現，想出了一套能讓宇宙生生不息的假說，讓我們一起來逐步論證!

有點意外很多人這都不會就進場。索性做成影片。油管連結： https://youtu.be/1l8H0NvCkig 抖音連結： https://vt.tiktok.com/ZS8qqHRhM/

玩笑哥的命理投資的沙龍

2023/01/27

[絕命參數]幸運值,股海最需要的參數,,,,,,

過年大家都想買個樂透沾沾喜氣,順便看看自己是否是那位頭獎的幸運兒那股票中的幸運是怎麼回事呢? 這邊有三種幸運的類型可參考第一種幸運是隨機性的幸運, 四個人打麻將,為啥你牌最好? 大樂透頭獎為啥是你重? ---這幸運是人人都有的,最不可控,用處也最小。第二種好運是碰撞出來的幸運你沒有去翻

#美股 #投資 #命理

張瑋凌的沙龍

2020/10/28

參數化設計探討4

最近好忙r 不過還是想寫下實習時遇到兩件重要的事

自營家的沙龍

2020/10/23

不使用參數的自適應指標(adaptive indicator)

除非您天生有盤感, 像我這種沒天分的, 期權商品的短線操作, 不免要藉用一些技術分析指標, 來相對客觀地告訴我當下該怎麼做; 由於已經規則化的關係, 甚至也可以做成全自動化下單交易. 但期商看盤系統附贈的指標多達百種, 到底哪一種比較好? 不知各位有無看過電視上的波浪大師, 知道他是怎麼做分析的嗎?

瑪西的沙龍

2020/10/09

幸福的參數

朋友問我，何謂幸福的人生? 專職special nurse的她，照護企業家的晚年生活，也結識富太太們。她說，越是深入那些貌似璀璨華美的生命歷程，越是懷疑世上沒有所謂的幸福；資產上億的富豪，因焦慮而夜不成寐，長期服用安眠藥及精神病藥物後，導致終日恍惚，神識不清輾轉入住醫院；而面貌姣好，氣質溫婉的貴婦，

#幸福 #不完美 #人生