Apple 的 MM1 語言模型可以讓 Siri 變得更有用

agoda

流量密碼 提供 科技娛樂流行穿搭影劇遊戲電競開箱資訊正妹網紅女神 等各類新聞資訊等,發燒話題永不退流行,讓您第一手快速掌握,快速更新文章及最新消息的發布就是我們的宗旨,只要隨時關注流量密碼資訊就是掌握 流量密碼

流量密碼推播群,掌握第一手資訊

Apple 已經悄悄在生成式 AI 努力很長一段時間了,公司首席執行長 Tim Cook在最近的財報電話會議上宣佈了這一消息。目前還沒有人真正知道這意味著什麼,但該公司工程師最近發表的一篇研究論文雖然沒有大張旗鼓地發表,卻也可以從中看到一些蛛絲馬跡。

當你撿到別人的 iPhone,要跟 Siri 說些什麼來找到失主?(同場加映:為自己的iPhone未雨綢繆) - 電腦王阿達

Apple 的 MM1 語言模型可以讓 Siri 變得更有用

Apple 的 MM1 語言模型是一個具有多達 300 億個參數的多模態模型,可以打包為多達 640 億個參數的 MoE。特別有趣的是,研究人員還測試了一個 30 億參數的模型,該模型能夠在具有適度 RAM 的設備上本機運行,這將非常適合為 LLM 提供動力,該 LLM 可以增強 Siri 甚至完全取代 Siri。

Apple 的 MM1 語言模型可以讓 Siri 變得更有用 - 電腦王阿達

在研究論文中,研究人員示範了 MM1 如何使用圖像進行推理並遵循。在一個例子中,將 MM1 與 Emu-Chat-37B 和 LLaVA-NeXT-34B 進行比較,以分析桌子上的啤酒並計算價格,MM1 是唯一一個得到正確答案的選項,並且可以用簡單的方式解釋其原因。

Apple 的 MM1 語言模型可以讓 Siri 變得更有用 - 電腦王阿達

Apple 還使用 Mixture of Experts 構建了一個 3B 參數模型,進一步增強性能。首先看到 Mixture of Experts 透過 Mixtral 8x7B 成為主流,在只需要 47B 模型硬體的模型中提供相當於 GPT 3.5 的性能,此外,MoE 的推理速度通常更快,從而具備更多優勢。

Apple 的 MM1 語言模型可以讓 Siri 變得更有用 - 電腦王阿達

總的來說,與 LLaVA、Gemini Nano 和 Emu2 等產品相比,MM1 似乎更佔優勢,尤其是在視覺問答或 VQA 方面;對於較小的模型,尤其是設計用於行動裝置上的模型,更是一個巨大的優勢,這部份是指模型回答視覺輸入的能力,包括識別圖像內容和基於這些內容的原因。出於多種原因,MM1 似乎表現亮眼,目前尚不清楚 Apple 最終是否會將其推廣到自己的設備上。路透社的報導中提到,該公司目前正在與 Google 進行談判以使用 Gemini 技術,這代表 MM1 現階段可能只是內部測試。例如,未來的 MM2 或 MM3 就可能用於未來的設備,但事實是,我們永遠摸不清 Apple。

Google 緊急喊停 Gemini 生成人物圖片的能力

特別有趣的是,Mac 和 iPhone 都有能夠在設備上運行 LLM 的 NPU,而 Mac 是少數幾個真正可以運行的電腦。Intel 和 AMD 才剛剛開始將開發重點放在 NPU 上,將它納為晶片組的一部分,但 Apple 自其首款 M1 晶片推出以來就已經擁有,整體上處於領先地位,這可能有助於 Apple 未來採取的任何行動。

Siri 迫切需要升級

Siri 剛開始時的確佔了領先地位,但隨著 Google 等競爭對手的快速成長,它已經顯得落後。隨著 Samsung、Google 在設備上增加 AI 服務,生成式 AI 儼然是設備端助理的下一個方向。Apple 可能不想落後而且該公司一直按照自己的節奏前竟,但應該已經很明顯地感受到來自競品的壓力。很難說 MM1 或後續型號何時會在設備上現身,該公司目前只是將開發與測試結果以研究論文形式發表,依照 Apple 的模式來說也可能永遠不會問世,但可以肯定的是,Apple 希望能夠在這不斷發展的領域中成為關鍵的一員。

分享