Meta 發表多模態 Llama 3.2 開源模型,視覺領先 GPT4o-mini,還有適合裝在手機的 1B 版本









流量密碼 提供 科技娛樂流行穿搭影劇遊戲電競開箱資訊正妹網紅女神 等各類新聞資訊等,發燒話題永不退流行,讓您第一手快速掌握,快速更新文章及最新消息的發布就是我們的宗旨,只要隨時關注流量密碼資訊就是掌握 流量密碼

流量密碼推播群,掌握第一手資訊

AI 進步速度真的快得嚇人,繼 7 月底時 Meta 推出 Llama 3.1 之後,才過 2 個月時間,Meta 又再度推新開源模型「Llama 3.2」,而且這次厲害地方在:支援多模態,意味著現在 Llama 3.2 可以讀圖像資訊了。

不僅如此,Llama 3.2 還有推出適合在筆電、手機本地運行的 3B 和 1B 版本,現在已經可以下載試用。

Meta 發表多模態 Llama 3.2 開源模型,視覺領先 GPT4o-mini,還有適合裝在手機的 1B 版本 - 電腦王阿達

支援多模態的 Meta Llama 3.2 開源模型登場,共有四種版本

這次 Meta Llama 3.2 開源模型共有四種版本

  • Llama 3.2 90B Vision:目前 Meta 最先進的模型,與 11B 模型類似,但支援更進階的圖像推理應用,可以處理更大範圍和更複雜的圖表、地圖等視覺資料,以及提供更準確和詳細的圖像描述和推理結果。
  • Llama 3.2 11B Vision:支援圖像推理應用,包括文件級理解(如圖表和圖形),能做到用自然語言描述圖像中的物體、快速回答圖表中企業最佳銷售月份資料、以及透過地圖推理出,走路路線的坡度變化,或特定路徑距離等問題
  • Llama 3.2 3B:與 1B 模型相似,具備更強大的多語言文字生成和工具調用能力,支援更複雜的應用場景和多樣化的任務需求,適合在筆電中運行。
  • Llama 3.2 1B:輕量級模型,擁有高效的多語言文字生成能力,能摘要最近的消息、提取行動項目等,適合在行動裝置上運行。

Meta 也有提供一些範例,像是視覺模型,上傳圖後,就會透過文字描述出這張圖,接著可以針對文字提示,找出符合的圖像內容:

View post on imgur.com

在手機上運行 Llama 3.2,可以當成作為文字編輯助手、總結 Demo、或是重寫內容,Meta 還說為了讓移動裝置能更相容運行模型,進行更多創新,他們有跟高通、聯發科、ARM 合作,未來會分享更多相關資訊:

View post on imgur.com

Llama 3.2 跟其他競爭模型比較

而跟其他模型效能比較部分,Meta 也有分享一些實測數據,首先是 11B 和 90B 版本,比對對象是 Claude 3 – Haiku 和 GPT-4o-mini。

  • 圖像測試的 MMMU 中,11B 以 50.7 贏過 Claude 3 – Haiku 的 50.2;90B 則以 60.3 贏過 GPT-4o-mini 的 59.4
  • MMU-Pro, Stadard 和 MathVista 也是 Llama 3.2 獲勝,不過 Vision 模式 90B 的 33.8 稍微落後 GPT-4o-mini
  • 文字測試的 MMLU 中,90B 贏過 GPT-4o-mini,11B 則小輸 Claude 3 – Haiku。
  • MATH 測試 11B 贏 Claude 3 – Haiku 不少。
  • GPQA 和 MGSM 表現都差不多。

Meta 發表多模態 Llama 3.2 開源模型,視覺領先 GPT4o-mini,還有適合裝在手機的 1B 版本 - 電腦王阿達

Llama 3.2 的 1B 和 3B 比對對象是 Gemma 2 2B IT 和 Phi-3.5-mini IT,所有測試中,長內容部分 Llama 3.2  優勢比較明顯,其他有贏有輸,大圖部分可以到 Meta 官網查看:

Meta 發表多模態 Llama 3.2 開源模型,視覺領先 GPT4o-mini,還有適合裝在手機的 1B 版本 - 電腦王阿達

Llama 3.2 哪裡可以下載

目前 Llama 3.2 已經在 Meta 官網和 Hugging Face 網站上開放下載,有需要的人可以按前方連結跳轉。









流量密碼 提供 科技娛樂流行穿搭影劇遊戲電競開箱資訊正妹網紅女神 等各類新聞資訊等,發燒話題永不退流行,讓您第一手快速掌握,快速更新文章及最新消息的發布就是我們的宗旨,只要隨時關注流量密碼資訊就是掌握 流量密碼

流量密碼推播群,掌握第一手資訊
分享