欧洲亚洲精品一二三线,秋霞无吗精品一本91

一支人大系大模型團(tuán)隊(duì)，前后與OpenAI進(jìn)行了三次大撞車！

第一次是與Clip，第二次是與GPT-4V，新一次撞在了Sora上：

去年5月，他們聯(lián)合并聯(lián)合伯克利、港大等單位于在arXiv上發(fā)表了關(guān)于VDT的論文。

那時(shí)候，該團(tuán)隊(duì)就在在技術(shù)架構(gòu)上提出并采用了Diffusion Transformer。并且，VDT還在模型中引入統(tǒng)一的時(shí)空掩碼建模。

這個(gè)團(tuán)隊(duì)，正由中國人民大學(xué)高瓴人工智能學(xué)院教授盧志武帶隊(duì)。

Sora問世已經(jīng)兩個(gè)多月，現(xiàn)在這支國產(chǎn)團(tuán)隊(duì)在視頻生成領(lǐng)域的進(jìn)度怎么樣了？什么時(shí)候我們能迎來國產(chǎn)Sora的驚艷時(shí)刻？

在本次中國AIGC產(chǎn)業(yè)峰會上，盧志武對上述問題進(jìn)行了毫無保留的分享。

人大盧志武：只要拿到更多算力超過Sora也不是那么難的事

為了完整體現(xiàn)盧志武的思考，在不改變原意的基礎(chǔ)上，量子位對演講內(nèi)容進(jìn)行了編輯整理，希望能給你帶來更多啟發(fā)。

中國AIGC產(chǎn)業(yè)峰會是由量子位主辦的行業(yè)峰會，20位產(chǎn)業(yè)代表與會討論。線下參會觀眾近千人，線上直播觀眾300萬，獲得了主流媒體的廣泛關(guān)注與報(bào)道。

話題要點(diǎn)

VDT使用Transformer作為基礎(chǔ)模型，能更好地捕捉長期或不規(guī)則的時(shí)間依賴性；

Scaling Law是視頻生成模型從基于Diffusion model轉(zhuǎn)向基于Transformer的重要原因；

VDT采用時(shí)空分離的注意力機(jī)制，而Sora采用時(shí)空合一的注意力機(jī)制；

VDT采用token concat方式，實(shí)現(xiàn)快速收斂和良好效果；

消融實(shí)驗(yàn)發(fā)現(xiàn)，模型效果與訓(xùn)練消耗的計(jì)算資源正相關(guān)，計(jì)算資源越多，效果越好；

只要拿到更多算力，超過Sora也不是那么難的事。

……

以下為盧志武演講全文：

為什么做視頻生成突然要轉(zhuǎn)到用Transformer上？

今天的報(bào)告，我將重點(diǎn)介紹我們在視頻生成領(lǐng)域的工作，特別是VDT（Video Diffusion Transformer）。

這項(xiàng)工作已于去年5月發(fā)布在arXiv上，并已被機(jī)器學(xué)習(xí)頂級會議ICLR接收。接下來，我將介紹我們在這一領(lǐng)域取得的進(jìn)展。

眾所周知，Sora非常出色，那么它的優(yōu)勢在哪里呢？之前，所有的工作都是基于Diffusion Model，那為什么我們在視頻生成中突然轉(zhuǎn)向使用Transformer呢？

從Diffusion到Transformer的轉(zhuǎn)變，原因如下：

與基于U-net的Diffusion模型不同，Transformer具有許多優(yōu)點(diǎn)，如token化處理和注意力機(jī)制，這兩個(gè)特點(diǎn)使其能夠更好地捕捉長期或不規(guī)則的時(shí)間依賴性。因此，在視頻領(lǐng)域，許多工作開始采用Transformer作為基礎(chǔ)模型。

然而，這些都是表面現(xiàn)象，根本的原因是什么呢？使用Transformer進(jìn)行視頻生成，是因?yàn)槠浔澈蟮膕caling law發(fā)揮了作用。

Diffusion Model的模型參數(shù)量是有限的，而一旦將Transformer作為基礎(chǔ)模型，參數(shù)量可以隨意增加，只要有足夠的計(jì)算能力，就可以訓(xùn)練出更好的模型。實(shí)驗(yàn)證明，只要增加計(jì)算量，效果就會得到提升。

當(dāng)然，視頻生成涉及各種任務(wù)，使用Transformer能夠?qū)⑦@些任務(wù)統(tǒng)一在一個(gè)架構(gòu)下。

基于上面三個(gè)原因探索用Transformer當(dāng)視頻生成的底座，這是我們當(dāng)時(shí)的考慮。

人大盧志武：只要拿到更多算力超過Sora也不是那么難的事

我們的創(chuàng)新點(diǎn)有兩個(gè)：

一是將Transformer應(yīng)用于視頻生成，并結(jié)合了Diffusion的優(yōu)點(diǎn)；二是在建模過程中，我們考慮了統(tǒng)一的時(shí)空掩碼建模，將時(shí)間和空間置于同等重要的位置。

無論是VDT還是Sora，第一步都是對視頻進(jìn)行壓縮和token化處理。

這與基于DM的方法大的區(qū)別在于，基于DM的方法只能進(jìn)行空間壓縮，無法進(jìn)行時(shí)間壓縮；而現(xiàn)在，我們可以同時(shí)考慮時(shí)間和空間，實(shí)現(xiàn)更高的壓縮程度。

具體來說，我們需要訓(xùn)練一個(gè)時(shí)空空間中的3D量化重構(gòu)器，這可以作為tokenizer，得到三維空間中的patches。

總之，通過這種方式，我們可以得到Transformer的輸入，輸入實(shí)際上是3D的tokens。

一旦我們將輸入的視頻進(jìn)行token化處理，就可以像通常的Transformer一樣，使用標(biāo)準(zhǔn)的Transformer架構(gòu)對3D的token序列進(jìn)行建模，細(xì)節(jié)我就不贅述了。

VDT和Sora有什么差別？

VDT模型中重要的部分是時(shí)空的Transformer Block。

我們與Sora有一點(diǎn)不同，當(dāng)時(shí)設(shè)計(jì)這個(gè)Block時(shí)，我們將時(shí)空的Attention分開了。高校團(tuán)隊(duì)沒有OpenAI那么多的計(jì)算資源，這樣分開后，所需的計(jì)算資源會少很多——除此之外，其他所有設(shè)計(jì)都一模一樣。

人大盧志武：只要拿到更多算力超過Sora也不是那么難的事

現(xiàn)在，讓我們來看看我們與Sora的區(qū)別。

剛才我說過，VDT采用了時(shí)空分離的注意力機(jī)制，空間和時(shí)間是分開的，這是在計(jì)算資源有限的情況下的折中方案。

Sora采用的是時(shí)空統(tǒng)一的token化，注意力機(jī)制也是時(shí)空合一的，我們推測Sora強(qiáng)大的物理世界模擬能力主要來自于這個(gè)設(shè)計(jì)。

至于輸入條件不同，這不是VDT與Sora大的區(qū)別，基本上圖生視頻能做好，文生視頻也能做好。

文生視頻的難度較大，但并非無法克服，沒有本質(zhì)上的差別。

接下來，我將介紹我們當(dāng)時(shí)探索的一些事項(xiàng)。架構(gòu)設(shè)計(jì)完成后，我們特別關(guān)注輸入條件。這里有C代表的Condition Frame，以及F代表的Noisy Frame。

這兩種輸入條件應(yīng)該如何結(jié)合，我們探索了三種方式：

通過Normalization的方式；

通過token concat的方式；

通過Cross attention。

我們發(fā)現(xiàn)，這三種方式中，token concat的效果佳，不僅收斂速度快，而且效果好，因此VDT采用了token concat方式。

我們還特別關(guān)注了通用時(shí)空掩碼機(jī)制。

不過，由于Sora沒有公布細(xì)節(jié)，我們不清楚它是否也采用了這個(gè)機(jī)制，但在模型訓(xùn)練過程中，我們特別強(qiáng)調(diào)了設(shè)計(jì)這樣的掩碼機(jī)制，終發(fā)現(xiàn)效果非常好，各種生成任務(wù)都能順利完成——我們發(fā)現(xiàn)Sora也能達(dá)到類似的效果。

人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事

消融實(shí)驗(yàn)特別有趣，無論是Sora還是VDT，有一個(gè)非常重要的問題，就是模型中有大量的超參數(shù)，這些超參數(shù)與模型密切相關(guān)，不同的參數(shù)會對模型的效果產(chǎn)生很大影響。

然而，通過大量實(shí)驗(yàn)驗(yàn)證，我們發(fā)現(xiàn)超參數(shù)的選擇有一個(gè)規(guī)律，即如果超參數(shù)使得模型的訓(xùn)練計(jì)算量增加，那么對模型效果是有益的。

這意味著什么？我們模型的性能只與其背后引入的計(jì)算量有關(guān)，模型訓(xùn)練所需的計(jì)算資源越多，終的生成效果就越好，就這么簡單。

這個(gè)發(fā)現(xiàn)與DiT類似，DiT被稱為Sora的基礎(chǔ)模型，它是用于圖片生成的。

總之，消融實(shí)驗(yàn)是Sora或我們工作中重要的事情之一，我們模型的效果只與訓(xùn)練消耗的計(jì)算資源有關(guān)，消耗的計(jì)算資源越大，效果越好。

有更多算力，超過Sora不是太難

考慮到我們的計(jì)算資源確實(shí)有限，我們團(tuán)隊(duì)在模型訓(xùn)練規(guī)模上，肯定不能與OpenAI相比。但是，我們也進(jìn)行了一些深入的思考。

物理世界模擬本身就在我們的論文中，并不是說這是OpenAI首先想到的，我們一年前就想到了。

當(dāng)時(shí)有這個(gè)底座以后，很自然想到這樣模型到底能不能進(jìn)行物理規(guī)律模擬。后來在物理數(shù)據(jù)集上訓(xùn)練了一下VDT，發(fā)現(xiàn)它對簡單的物理規(guī)律模擬得特別好。

比如，這些例子有拋物線的運(yùn)動(dòng)，加速運(yùn)動(dòng)，還有碰撞的運(yùn)動(dòng)，模擬得都還可以。

人大盧志武：只要拿到更多算力超過Sora也不是那么難的事

所以我們當(dāng)時(shí)做了兩個(gè)在思想上特別有前瞻性的事情，一個(gè)是當(dāng)時(shí)我們想到Diffusion Transformer用到視頻生成里面，第二個(gè)是我們得到了這樣模型以后，我們當(dāng)時(shí)覺得這就是做物理世界模擬很好的模型，我們做實(shí)驗(yàn)驗(yàn)證了這個(gè)事情。

當(dāng)然，如果我們有更多的算力，我們有更多的數(shù)據(jù)，我相信肯定可以模擬更復(fù)雜的物理規(guī)律。

我們這個(gè)模型也跟現(xiàn)在有模型做了對比，比如人像生成，給一張寫真的照片讓它動(dòng)起來，我們只考慮做這個(gè)小的事情，因?yàn)槲覀兯懔μ貏e有限。

這些結(jié)果表明VDT比Stable Video Diffusion要好一些，你可以看看生成得人物眼睛眨的更明顯一些，更自然一點(diǎn)。另一個(gè)模型生成有點(diǎn)不太自然。

此外，如果人臉從側(cè)面轉(zhuǎn)成正臉，甚至用扇子把臉遮住了，要把人臉預(yù)測出來，還是挺難的。

人大盧志武：只要拿到更多算力超過Sora也不是那么難的事

關(guān)于這個(gè)寫真視頻是怎么做的我簡單說一下。

先提供幾張寫真的照片，VDT把每一張寫真照片變成兩秒的鏡頭，通過剪輯的方式把鏡頭拼在一起。

結(jié)合我們團(tuán)隊(duì)本身的特點(diǎn)，如果說我做通用的模型，我肯定做不過市面上的大部分，但是我當(dāng)時(shí)挑了一個(gè)應(yīng)用點(diǎn)，在這個(gè)點(diǎn)上VDT并不比Sora差。

Sora出來以后很多人要做視頻生成，我要考慮怎么保證我的團(tuán)隊(duì)在這個(gè)方向上，哪怕很小的一個(gè)點(diǎn)保持世界前沿。

因此，我們做了寫真視頻生成，國外的Pika、Sora也研究了一下。VDT生成的超寫實(shí)人物，是超過Pika和Sora的。在通用的視頻生成我們很難超過Sora，這里的主要原因是我們算力很有限。

只要拿到更多算力，超過Sora也不是那么難的事。

我就講這么多，謝謝大家。

本文鏈接：http://morphism.cn/news481.html人大盧志武：只要拿到更多算力超過Sora也不是那么難的事

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com。天上從來不會掉餡餅，請大家時(shí)刻謹(jǐn)防詐騙

久久国语对白,东京热男人的天堂,九月婷婷人人澡人人添人人爽,日本久久大香蕉

人大盧志武：只要拿到更多算力超過Sora也不是那么難的事

猜你喜歡

人類首次月背采樣返回！嫦娥六號宣布5月3日發(fā)射

神舟十七號返回艙成功著陸：傾倒?fàn)顟B(tài)落地、艙門已開

魚隨暴雨從天而降伊朗下起魚雨專家：龍卷風(fēng)過境引起

野外生存大佬用保鮮膜搭帳篷：遠(yuǎn)遠(yuǎn)看去像是被蜘蛛精抓住了

美國14歲少年挑戰(zhàn)辣玉米片被辣死：太辣致心肺功能停止

多熱的天睡覺都會蓋肚子網(wǎng)友：蓋肚臍眼是中國人后的倔強(qiáng)

最新文章

熱門文章

相關(guān)閱讀

久久国语对白,东京热男人的天堂,九月婷婷人人澡人人添人人爽,日本久久大香蕉

人大盧志武：只要拿到更多算力 超過Sora也不是那么難的事

猜你喜歡

人類首次月背采樣返回！嫦娥六號宣布5月3日發(fā)射

神舟十七號返回艙成功著陸：傾倒?fàn)顟B(tài)落地、艙門已開

魚隨暴雨從天而降 伊朗下起魚雨 專家：龍卷風(fēng)過境引起

野外生存大佬用保鮮膜搭帳篷：遠(yuǎn)遠(yuǎn)看去像是被蜘蛛精抓住了

美國14歲少年挑戰(zhàn)辣玉米片被辣死：太辣致心肺功能停止

多熱的天睡覺都會蓋肚子 網(wǎng)友：蓋肚臍眼是中國人后的倔強(qiáng)

最新文章

熱門文章

相關(guān)閱讀

人大盧志武：只要拿到更多算力超過Sora也不是那么難的事

人類首次月背采樣返回！嫦娥六號宣布5月3日發(fā)射

神舟十七號返回艙成功著陸：傾倒?fàn)顟B(tài)落地、艙門已開

魚隨暴雨從天而降伊朗下起魚雨專家：龍卷風(fēng)過境引起

多熱的天睡覺都會蓋肚子網(wǎng)友：蓋肚臍眼是中國人后的倔強(qiáng)