機器之心報道
編輯:澤南、小舟
臉書的視頻生成新模型實現了 SOTA,但不知道是不是人類給的提示太簡單了,生成內容有點驚悚。
你輸入文字,AI 就能生成視頻,很長一段時間里只存在于人們想象中的事現在已經實現了。

昨天,Meta(臉書)研究人員發布了在 AI 藝術領域的新成果 Make-A-Video,這是一種創造性地新技術,結果令人印象深刻且多種多樣。雖然畫面目前看起來都有點驚悚,但在 AI 圈里人們已經開始嘗試批量制造梗圖了,圖靈獎獲得者 Yann LeCun 也在不停轉推它制造的內容。

在此之前,我們以前見過文本到視頻模型大多數利用文本生成圖像(如 DALL-E),它們從人類的提示中輸出靜止圖像。不過,雖然從靜止圖像到移動圖像的概念跳躍對于人類大腦來說很小,但在機器學習模型中想要實現卻絕非易事。
Make-A-Video 實際上并沒有在后端對這套過程進行太大的改變——正如研究人員在論文中指出的那樣,「一個只看到描述圖像的文本的模型在生成短視頻方面出奇地有效。」
例如輸入「A teddy bear painting a portrait」,即「一只畫自畫像的泰迪熊」,Make-A-Video 生成的視頻如下動圖所示:

論文《Make-A-Video: Text-to-video Generation without text-video data》:

從格式看是 ICLR 大會的投稿。
論文鏈接:
https://makeavideo.studio/Make-A-Video.pdf
該 AI 模型使用現有且有效的擴散技術來創建圖像,其本質上是從純視覺靜態「去噪」向目標提示的逆向工作。這里要注意的是,該模型還對一堆未標記的視頻內容進行了無監督訓練(即在沒有人類仔細指導的情況下用數據進行訓練)。
Make-A-Video 不需要從頭開始學習視覺和多模態表示,從一開始就知道如何制作逼真的圖像,也不需要成對的文本視頻數據,同時生成的視頻風格多樣,繼承了當今圖像生成模型的可擴展性。Meta 研究人員表示,在空間和時間分辨率、對文本的還原忠實度和質量的所有方面,Make-A-Video 實現了文本到視頻生成的最高水平。
無論是空間和時間分辨率、還是與文本描述的符合程度,Make-A-Video 都在文本到視頻的生成中達到了 SOTA 水平。
相比于之前從文本生成視頻的系統,Make-A-Video 使用了不同的方法,實現了與 18 個月前在原始 DALL-E 或其他上一代系統中一致的圖像保真度。

T2V 生成的圖像示例。Meta 提出的模型可以為各種視覺概念生成具有連貫運動的高質量視頻。
值得注意的是,AI 模型生成的圖像往往因為太高清而失去真實感,保留一點瑕疵的圖像和視頻才更貼合實際。

Make-A-Video 的高級架構。給定由先驗 P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ,解碼器 Dt 生成 16 個 64 × 64 分辨率的幀,然后通過 ↑F 將其插值到更高的幀速率,并提高分辨率到 SRt l 為 256 × 256,SRh 為 768 × 768,最后生成高時空分辨率的視頻 y^。
作為一個腦補工具,Make-A-Video 也可以利用靜止圖像和其他視頻轉換為其變體或進行擴展,就像圖像生成器也可以用圖像本身作為提示一樣。這樣生成的結果就稍微沒那么魔性了。
從文本、圖像到視頻,AI 工具的發展速度再次跨越了一個界限,不知在這項技術公開之后,人們會用它創造出哪些「藝術品」。Meta 表示,人們已經可以開始注冊,并在近期獲取開放的模型。
原文地址:http://www.myzaker.com/article/63369b868e9f096d295a8e26






川公網安備51012402001058號