Google 最新 AI 工具可為無聲音的影片，生成出配樂和語音

2024 年 6 月 21 日

流量密碼 提供科技、娛樂、流行、穿搭、影劇、遊戲、電競、開箱、資訊、正妹網紅女神 等各類新聞資訊等，發燒話題永不退流行，讓您第一手快速掌握，快速更新文章及最新消息的發布就是我們的宗旨，只要隨時關注流量密碼資訊就是掌握 流量密碼。

流量密碼推播群，掌握第一手資訊

現今 AI 真的能做越來越多事情，就在我們對能夠用文字來生成出音樂、配樂感到興奮時，Google 的最新 AI 技術「V2A」，可以做到針對無聲音的影片，直接生成出適合的配樂，甚至連語音都沒問題。

Google 最新 AI 工具可為無聲音的影片，生成出配樂和語音

近日 Google 在官方部落格中，發表一項全新 V2A 技術（video-to-audio），就如同英文名字，它可以做到為無聲音的影片，生成出適合且匹配的音樂，意味著後續無需調整任何東西，可直接使用。

更值得注意的是，Google 還提到：「V2A 技術可以跟 Veo 等影片生成模型搭配使用，創建出帶有戲劇性配樂、逼真音效或與影片角色和語氣相符的對話的畫面。」

Veo 是 Google 於今年 5 月發表的文字生成影片模型，跟 OpenAI 的 Sora 類似。

也就是說，影片和音樂同步生成是可能的。Google 也有展示數部影片來展示，像是下面這部原本就只是恐怖的影片，透過 V2A 來自動生成出適合且搭配的配樂。

音樂使用的 Prompt：「Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete（電影、驚悚片、恐怖片、音樂、緊張感、氛圍、混凝土地面的腳步聲）」：

Prompt：「Cute baby dinosaur chirps, jungle ambience, egg cracking（可愛的小恐龍鳴叫聲、叢林氛圍聲、蛋殼破裂聲）」

Prompt：「A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd（舞台上正在演奏的鼓手，周圍是閃爍的燈光和歡呼的人群）」

流量密碼推播群，掌握第一手資訊

Prompt：「A slow mellow harmonica plays as the sun goes down on the prairie（夕陽西下的草原上，傳來悠揚柔和的口琴聲）」

Google 也有解釋其運作方式，V2A 系統首先會將影像輸入編碼成壓縮表示。接著，擴散模型從隨機噪音中反覆提煉音效。

這個過程是由視覺輸入和自然語言提示引導，生成與提示緊密匹配的同步且逼真的音效。最後，音效輸出被解碼，轉換為音頻波形，並與影像數據結合。

雖然釋出的幾部展示影片感覺都很不賴，但 Google 也承認，目前還沒有到完美，有一些限制在，尤其是語音部分

V2A 試圖根據輸入的台詞生成語音並與角色唇形動作同步。不過，配對的影片生成模型可能沒有依據台詞進行調整。這會導致不匹配，經常產生不自然的唇形同步，因為影片模型沒有生成與台詞匹配的口型動作。

另外音訊輸出品質也取決於影片輸入品質，如果影片中有出現瑕疵或失真，那就會導致音訊品質明顯下降。

Google 並沒有提到未來是否會開放給大家使用，對於有興趣的人。可以隨時關注 Google DeepMind 官方部落格。

流量密碼 提供科技、娛樂、流行、穿搭、影劇、遊戲、電競、開箱、資訊、正妹網紅女神 等各類新聞資訊等，發燒話題永不退流行，讓您第一手快速掌握，快速更新文章及最新消息的發布就是我們的宗旨，只要隨時關注流量密碼資訊就是掌握 流量密碼。

流量密碼推播群，掌握第一手資訊

分享