魚羊 發自 凹非寺
量子位 | 公眾號 QbitAI
谷歌一出手,又把AI影片生成捲上了新高度。
一句話生成影片,現在在名為Lumiere的AI操刀下,可以是醬嬸的:
△“陽光明媚,帆船在湖中航行”
如此一致性和質量,再次點燃了網友們對AI影片生成的熱情:谷歌加入戰局,又有好戲可看了。
不止是文生影片,Lumiere把Pika的“一鍵換裝”也復現了出來。
左谷歌右pika,同樣是選中區域一句話完成影片編輯,你pick哪一邊?
讓圖片中靜止的火焰躍動起來,也同樣一選就能完成:
還有圖片轉影片:
影片風格化:
總之就是主打一個質量又高又全能。
更多細節,我們論文扒起~
用於影片生成的時空擴散模型
Lumiere旨在解決以往影片生成中存在的幾個關鍵問題:
- 真實性
- 多樣化
- 運動的連貫性
在此前的方法中,常見的做法是,擴散模型先生成一些稀疏的關鍵幀,而後透過一系列時間超解析度(TSR)模型來填補關鍵幀之間的空白,接著再用空間超解析度模型獲取高畫質影片結果。
可以想見,在全域性連貫性上,這樣的做法存在先天的缺陷。
Lumiere的創新點在於,提出了時空U-Net(STU-Net)架構:將影片在空間和時間兩個維度同時進行下采樣和上取樣,在網路的中間層得到影片的壓縮時空表示。
具體來說,基於這一架構,模型能夠一次性生成影片中的所有幀——這也就提升了生成影片的連貫性。
同時,因為大部分計算發生在壓縮後的表示上,STU-Net能有效減少計算量,降低對計算和記憶體的需求。
另外,為了提升影片的解析度,研究人員使用多重擴散(MultiDiffusion)技術,透過線性加權空間超解析度網路來處理重疊時間視窗帶來的邊界偽影等問題,從而能將生成畫面融合為一個整體,得到連貫、高畫質的影片效果。
時長和解析度方面,Lumiere能輸出1024×1024、16fps下長5秒的影片。
研究人員提到:
5秒已經超過了大多數影片作品中的平均鏡頭長度。
值得一提的是,得益於時空U-Net架構端到端全幀率影片生成的能力和高效計算,Lumiere靈活可擴充套件,可以輕鬆應用到下游任務中,包括文生影片、圖生影片、影片風格化、影片編輯修復等等。
△影片修復
實驗結果
研究人員將Lumiere與其他文字-影片生成模型進行了實驗對比。
首先來看人類使用者的判斷。
實驗設計是這樣的:志願者會同時看到一對影片,一個來自Lumiere,另一個來自其他基線模型。志願者被要求從中選出視覺質量、動態效果更好,更符合文字提示的影片。
研究人員收集了大約400份反饋,結果顯示,在影片質量、文字匹配度方面,Lumiere超越了Pika、Gen2、Imagen Video、SVD等一眾頂級影片生成模型。
同時,在UCF101資料集(動作識別資料集)上,與MagicVideo、Make-A-Video、SVD等模型相比,Lumiere取得了具有競爭力的FVD和IS指標。
網友:谷歌,模型呢?
效果很驚豔,網友很興奮,但橋豆麻袋……
這次,谷歌依然只放出了論文,沒有試玩,更沒有開源。
這種似曾相識的操作,把人快整麻了:
影片很不錯,但是谷歌,你又不打算釋出任何程式碼、權重,也不提供API了,對嗎?
還有人想起了Gemini釋出時那個造假的小藍鴨影片……
那麼,這波你還會看好谷歌嗎?
論文地址:
https://arxiv.org/abs/2401.12945
專案地址:
https://lumiere-video.github.io/#section_video_stylization
— 完 —
量子位 QbitAI · 頭條號
關注我們,第一時間獲知前沿科技動態簽約