人人都能當影片創作者！Google Researcher 揭露全新 VLOGGER AI 技術，給一張圖片就能生成影片 + 人說話

2024 年 3 月 21 日

流量密碼 提供科技、娛樂、流行、穿搭、影劇、遊戲、電競、開箱、資訊、正妹網紅女神 等各類新聞資訊等，發燒話題永不退流行，讓您第一手快速掌握，快速更新文章及最新消息的發布就是我們的宗旨，只要隨時關注流量密碼資訊就是掌握 流量密碼。

流量密碼推播群，掌握第一手資訊

OpenAI 發表 Sora 文字生成影片時，就已經讓不少 YouTuber 覺得自己的工作快被取代，稍早 Google Researcher 揭露的全新 VLOGGER AI 技術，一定會感受更深刻，不需要文字，只需上傳一張自己的圖片，這項 AI 技術就能轉變成會說話的影片，意味著未來不需要真的露臉拍片，靠它就能輕鬆製作出 VLOGGER 影片。

人人都能當影片創作者！Google Researcher 揭露全新 VLOGGER AI 技術，給一張圖片就能生成影片 + 人說話

近日 Google Researcher 在網站中揭露他們最新開發出的 VLOGGER AI 技術，根據說明，這是一個基於單張人物圖片，搭配上文字和聲音就能生成人類說話的影片，其原理主要有二大核心，首先是「能夠把人物動作轉化成 3D 隨機擴散模型」、其次是「創新的擴散架構，為文字到圖片轉化提供時間和空間上的控制」。

透過這二個核心，VLOGGER AI 就能建立出高品質且長短不一的影片，而且能夠對人臉和身體進行高層次描述，進而做到細節控制，讓人說話起來更加自然。

Google just unveiled VLOGGER, a tool that generates lifelike talking videos with a single photo

Now, anybody can become a YouTuber.

Here’s what you need to know: pic.twitter.com/gpJVBNoAp3

— EyeingAI (@EyeingAI) March 18, 2024

優質娛樂城推薦，歡迎加入3A娛樂城，首次儲值1000就送1000！

流量密碼推播群，掌握第一手資訊

從說明來看，聲音部分似乎也能自己匯入，代表說應該可以使用克隆自己的 AI 聲音，這對創作影片來說就非常實用，而且講話的嘴形也會符合當前語言，如：如果你是拍攝西班牙語，那影片中的嘴形就會變成講西班牙話，真的厲害。未來搞不好就算你不懂外語，也能輕鬆製作出多國語言的影片。

當然，目前也不是零缺點，即使轉成影片後的人像有表情，但看起來是沒那麼自然，特別是眼睛處最明顯，有時候會出現不自然的眨眼。

這項技術跟 OpenAI 的 Sora 有很大不同，Sora 是文字生成影片，無法針對單一圖片轉變成影片，而且也沒有聲音，不過如果將這兩項技術所生成的影片結合起來，那就會變得相當強大。

Google Researcher 也提到，為此他們建立一個新的、更多元的數據集 MENTOR，其規模是先前數據集大一個量級，包含 2,200 小時、800,000 個不同人物、以及一個 120 小時和 4,000 個人物的測試集。

話說回來，隨著 AI 生成影片越來越強大，之後假新聞、假消息事件一定會變更多，尤其是這種上傳人像圖片就能轉成會說話的影片，因此未來該如何盡量避免這類情形發生，可說是每一間 AI 公司都需要思考的重點。

而對於創作者來說，也需要多多接觸這類 AI 工具，才不會被這波 AI 創作給吞噬，甚至可以提升自己的創作效率。想更深入了解 VLOGGER AI 技術的讀者，可以點我閱讀相關文件。

VLOGGER AI 還能做到編輯影片，控制影片中講者的眼睛和嘴巴：

流量密碼 致力於提供分享大量的最新資訊及資料，供所有使用者瀏覽轉發分享。本站提供 發燒話題 娛樂新聞影視娛樂正妹新聞遊戲資訊 奇聞軼事潮流物時尚生活科技資訊區塊鍊電競電玩體育新聞國際新聞 板塊。

優質娛樂城推薦，歡迎加入3A娛樂城，首次儲值1000就送1000！

流量密碼推播群，掌握第一手資訊

分享