亚洲精品免费高清熟妇,777米奇影视第四色,www.999精品视频观看免费

哭死啊，全球狂煉大模型，一互聯(lián)網(wǎng)的數(shù)據(jù)不夠用，根本不夠用。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

訓(xùn)練模型搞得跟《饑餓游戲》似的，全球AI研究者，都在苦惱怎么才能喂飽這群數(shù)據(jù)大胃王。

尤其在多模態(tài)任務(wù)中，這一問(wèn)題尤為突出。

一籌莫展之際，來(lái)自人大系的初創(chuàng)團(tuán)隊(duì)，用自家的新模型，率先在國(guó)內(nèi)把“模型生成數(shù)據(jù)自己喂自己”變成了現(xiàn)實(shí)。

而且還是理解側(cè)和生成側(cè)雙管齊下，兩側(cè)都能生成高質(zhì)量、多模態(tài)的新數(shù)據(jù)，對(duì)模型本身進(jìn)行數(shù)據(jù)反哺。

模型是啥？

中關(guān)村論壇上剛剛露面的多模態(tài)大模型Awaker 1.0。

團(tuán)隊(duì)是誰(shuí)？

智子引擎。由人大高瓴人工智能學(xué)院博士生高一釗創(chuàng)立，高瓴人工智能學(xué)院盧志武教授擔(dān)任顧問(wèn)。公司成立時(shí)還是2021年，就早早打入多模態(tài)這條“無(wú)人區(qū)”賽道。

MOE架構(gòu)，解決多模態(tài)多任務(wù)訓(xùn)練沖突問(wèn)題

這不是智子引擎第一次發(fā)布模型。

去年3月8日，潛心研發(fā)兩年的團(tuán)隊(duì)對(duì)外發(fā)布了自研的第一個(gè)多模態(tài)模型，百億級(jí)別參數(shù)的ChatImg序列模型，并基于此推出世界首個(gè)公開(kāi)評(píng)測(cè)多模態(tài)對(duì)話應(yīng)用ChatImg（元乘象）。

后來(lái)，ChatImg不斷迭代，新模型Awaker的研發(fā)也在并行推進(jìn)。后者還繼承了前代模型的基礎(chǔ)能力。

相較于前代的ChatImg序列模型，Awaker 1.0采用了MoE模型架構(gòu)。

要說(shuō)原因嘛，是想要解決解決多模態(tài)多任務(wù)訓(xùn)練存在嚴(yán)重沖突的問(wèn)題。

采用MoE模型架構(gòu)，可以更好地學(xué)習(xí)多模態(tài)通用能力以及各個(gè)任務(wù)所需的獨(dú)特能力，從而讓整個(gè)Awaker 1.0的能力在多個(gè)任務(wù)上有進(jìn)一步提升。

數(shù)據(jù)勝千言：

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

鑒于主流多模態(tài)評(píng)測(cè)榜單存在評(píng)測(cè)數(shù)據(jù)泄露問(wèn)題，智子團(tuán)隊(duì)從嚴(yán)構(gòu)建了自有評(píng)測(cè)集，大部分測(cè)試圖片來(lái)自個(gè)人手機(jī)相冊(cè)。

表格顯示，團(tuán)隊(duì)讓Awaker 1.0和國(guó)內(nèi)外先進(jìn)的3個(gè)多模態(tài)大模型進(jìn)行了評(píng)測(cè)。

多提一嘴，由于GPT-4V和Intern-VL并不直接支持檢測(cè)任務(wù)，它們的檢測(cè)結(jié)果是通過(guò)要求模型使用語(yǔ)言描述物體方位得到的。

可以看到，在視覺(jué)問(wèn)答和業(yè)務(wù)應(yīng)用任務(wù)上，Awaker 1.0的基座模型超過(guò)了GPT-4V、Qwen-VL-Max和Intern-VL。

在描述、推理和檢測(cè)任務(wù)上，Awaker 1.0的基座模型達(dá)到了次好效果。

后來(lái)看平均分，Awaker 1.0處于幾者中的高值。

因此，上述結(jié)果也印證了多任務(wù)多模態(tài)模型采用MoE架構(gòu)的有效性。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

數(shù)據(jù)集評(píng)測(cè)結(jié)果有了，真實(shí)效果還需進(jìn)一步上手體驗(yàn)。

這里主要問(wèn)了它和對(duì)比大模型一些關(guān)于中文OCR（圖片文字識(shí)別）和計(jì)數(shù)問(wèn)題、詳細(xì)描述任務(wù)等問(wèn)題。

這個(gè)主要考計(jì)數(shù)：

Awaker 1.0能正確地給出答案，而其它三個(gè)模型均回答錯(cuò)誤。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

這個(gè)主要考中文OCR：

正確回答的選手是Qwen-VL-Max和Awaker 1.0。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

后這題考圖片內(nèi)容理解。

GPT-4V和Awaker 1.0不但能夠詳細(xì)地描述圖片的內(nèi)容，而且能夠準(zhǔn)確地識(shí)別出圖片中的細(xì)節(jié)，如圖中展示的可口可樂(lè)。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

不得不提一嘴的是，Awaker 1.0繼承了一些智子團(tuán)隊(duì)此前廣為關(guān)注的研究成果。

說(shuō)的就是你——Awaker 1.0的生成側(cè)。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

Awaker 1.0的生成側(cè)，是智子引擎自主研發(fā)的類(lèi)Sora視頻生成底座VDT（Video Diffusion Transformer）。

VDT的學(xué)術(shù)論文早于OpenAI Sora的發(fā)布（去年5月），并已被頂會(huì)ICLR 2024接收。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

VDT與眾不同的創(chuàng)新之處，主要有兩點(diǎn)。

一是在技術(shù)架構(gòu)上采用Diffusion Transformer，在OpenAI之前就展現(xiàn)了Transformer在視頻生成領(lǐng)域的巨大潛力。

它的優(yōu)勢(shì)在于其出色的時(shí)間依賴性捕獲能力，能夠生成時(shí)間上連貫的視頻幀，包括模擬三維對(duì)象隨時(shí)間的物理動(dòng)態(tài)。

二是提出統(tǒng)一的時(shí)空掩碼建模機(jī)制，使VDT能夠處理多種視頻生成任務(wù)。

VDT靈活的條件信息處理方式，如簡(jiǎn)單的token空間拼接，有效地統(tǒng)一了不同長(zhǎng)度和模態(tài)的信息。

同時(shí)，通過(guò)與該工作提出的時(shí)空掩碼建模機(jī)制結(jié)合，VDT成為了一個(gè)通用的視頻擴(kuò)散工具，在不修改模型結(jié)構(gòu)的情況下可以應(yīng)用于無(wú)條件生成、視頻后續(xù)幀預(yù)測(cè)、插幀、圖生視頻、視頻畫(huà)面補(bǔ)全等多種視頻生成任務(wù)。

據(jù)了解，智子引擎團(tuán)隊(duì)不僅探索了VDT對(duì)簡(jiǎn)單物理規(guī)律的模擬，發(fā)現(xiàn)它能模擬物理過(guò)程：

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

還在超寫(xiě)實(shí)人像視頻生成任務(wù)上進(jìn)行了深度探索。

因?yàn)槿庋蹖?duì)人臉及人的動(dòng)態(tài)變化非常敏感，所以這個(gè)任務(wù)對(duì)視頻生成質(zhì)量的要求非常高。不過(guò)，智子引擎已經(jīng)突破超寫(xiě)實(shí)人像視頻生成的大部分關(guān)鍵技術(shù)，比起Sora也沒(méi)在怕的。

口說(shuō)無(wú)憑。

這是智子引擎結(jié)合VDT和可控生成，對(duì)人像視頻生成質(zhì)量提升后的效果：

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

據(jù)悉，智子引擎還將繼續(xù)優(yōu)化人物可控的生成算法，并積極進(jìn)行商業(yè)化探索。

生成源源不斷的新交互數(shù)據(jù)

更值得關(guān)注的是，智子引擎團(tuán)隊(duì)強(qiáng)調(diào)：

Awaker 1.0是世界上首個(gè)能自主更新的多模態(tài)大模型。

換句話說(shuō)，Awaker 1.0是“活”的，它的參數(shù)可以實(shí)時(shí)持續(xù)地更新——這就導(dǎo)致Awaker 1.0區(qū)別于所有其它多模態(tài)大模型，

Awaker 1.0的自主更新機(jī)制，包含三大關(guān)鍵技術(shù)，分別是：

-數(shù)據(jù)主動(dòng)生成

-模型反思評(píng)估

-模型連續(xù)更新

這三項(xiàng)技術(shù)，讓Awaker 1.0具備自主學(xué)習(xí)、自動(dòng)反思和自主更新的能力，可以在這個(gè)世界自由探索，甚至與人類(lèi)互動(dòng)。

基于此，Awaker 1.0在理解側(cè)和生成側(cè)都能生成源源不斷的新交互數(shù)據(jù)。

怎么做到的？

在理解側(cè)，Awaker 1.0與數(shù)字世界和現(xiàn)實(shí)世界進(jìn)行交互。

在執(zhí)行任務(wù)的過(guò)程中，Awaker 1.0將場(chǎng)景行為數(shù)據(jù)反哺給模型，以實(shí)現(xiàn)持續(xù)更新與訓(xùn)練。

在生成側(cè)，Awaker 1.0可以進(jìn)行高質(zhì)量的多模態(tài)內(nèi)容生成，為理解側(cè)模型提供更多的訓(xùn)練數(shù)據(jù)。

在理解側(cè)和生成側(cè)的兩個(gè)循環(huán)中，Awaker 1.0實(shí)際實(shí)現(xiàn)了將視覺(jué)理解與視覺(jué)生成進(jìn)行融合。

要知道，Sora問(wèn)世后，越來(lái)越多聲音表示，要通往AGI，必須達(dá)成“理解和生成的大一統(tǒng)”。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

以新知識(shí)注入為例，下面來(lái)看個(gè)具體跑通的例子。

Awaker 1.0能夠不斷在互聯(lián)網(wǎng)上學(xué)習(xí)實(shí)時(shí)新聞信息，同時(shí)，它結(jié)合新學(xué)習(xí)到的新聞信息來(lái)回答各種復(fù)雜問(wèn)題。

這和目前兩種主流，即RAG和傳統(tǒng)長(zhǎng)上下文方式還不太一樣，Awaker 1.0是真的把新知識(shí)“記憶”在自個(gè)兒模型的參數(shù)上。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

可以看到，連續(xù)3天的自我更新過(guò)程中，Awaker 1.0每天都能學(xué)習(xí)當(dāng)天的新聞信息，并在描述中準(zhǔn)確地說(shuō)出對(duì)應(yīng)信息。

而且雖然一直在學(xué)，Awaker 1.0倒沒(méi)有顧此失彼，它并不會(huì)很快地遺忘學(xué)過(guò)的知識(shí)。

譬如，4月16日學(xué)進(jìn)去的智界S7相關(guān)知識(shí)，在2天后仍然被Awaker 1.0記住或理解。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

So，在這個(gè)數(shù)據(jù)如金的時(shí)代，別再哀嘆“數(shù)據(jù)不夠用”了。

面對(duì)數(shù)據(jù)瓶頸的團(tuán)隊(duì)們，一種可行、可用的新選擇，不就被Awaker 1.0送來(lái)了？

具身智能“活”的大腦

話說(shuō)回來(lái)，正是由于實(shí)現(xiàn)了視覺(jué)理解與視覺(jué)生成的融合，當(dāng)遇到“多模態(tài)大模型適配具身智能”的問(wèn)題，Awaker 1.0的驕傲已經(jīng)顯露無(wú)疑。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

事情是這樣的：

Awaker 1.0這類(lèi)多模態(tài)大模型，其具有的視覺(jué)理解能力可以天然與具身智能的“眼睛”相結(jié)合。

而且主流聲音也認(rèn)為，“多模態(tài)大模型+具身智能”有可能大幅地提升具身智能的適應(yīng)性和創(chuàng)造性，甚至是實(shí)現(xiàn)AGI的可行路徑。

理由不外乎兩點(diǎn)。

第一，人們期望具身智能擁有適應(yīng)性，即智能體能夠通過(guò)持續(xù)學(xué)習(xí)來(lái)適應(yīng)不斷變化的應(yīng)用環(huán)境。

這樣一來(lái)，具身智能既能在已知多模態(tài)任務(wù)上越做越好，也能快速適應(yīng)未知的多模態(tài)任務(wù)。

第二，人們還期望具身智能具有真正的創(chuàng)造性，希望它通過(guò)對(duì)環(huán)境的自主探索，能夠發(fā)現(xiàn)新的策略和解決方案，并探索AI的能力邊界。

但是二者的適配，并不是簡(jiǎn)簡(jiǎn)單單把多模態(tài)大模型鏈接個(gè)身體，或直接給具身智能裝個(gè)腦子那么簡(jiǎn)單。

就拿多模態(tài)大模型來(lái)說(shuō)，至少有兩個(gè)明顯的問(wèn)題擺在面前。

一是模型的迭代更新周期長(zhǎng)，需要大量的人力投入；

二是模型的訓(xùn)練數(shù)據(jù)都源自已有的數(shù)據(jù)，模型不能持續(xù)獲得大量的新知識(shí)。雖然通過(guò)RAG和擴(kuò)長(zhǎng)上下文窗口也可以注入持續(xù)出現(xiàn)的新知識(shí)，模型記不住，補(bǔ)救方式還會(huì)帶來(lái)額外的問(wèn)題。

總之，目前的多模態(tài)大模型在實(shí)際應(yīng)用場(chǎng)景中不具備很強(qiáng)的適應(yīng)性，更不具備創(chuàng)造性，導(dǎo)致在行業(yè)落地時(shí)總是出現(xiàn)各種各樣的困難。

妙啊——還記得我們前面提到，Awaker 1.0不僅可以學(xué)新知識(shí)，還能記住新知識(shí)，并且這種學(xué)習(xí)是每天的、持續(xù)的、及時(shí)的。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

從這張框架圖可以看出，Awaker 1.0能夠與各種智能設(shè)備結(jié)合，通過(guò)智能設(shè)備觀察世界，產(chǎn)生動(dòng)作意圖，并自動(dòng)構(gòu)建指令控制智能設(shè)備完成各種動(dòng)作。

在完成各種動(dòng)作后，智能設(shè)備會(huì)自動(dòng)產(chǎn)生各種反饋，Awaker 1.0能夠從這些動(dòng)作和反饋中獲取有效的訓(xùn)練數(shù)據(jù)進(jìn)行持續(xù)的自我更新，不斷強(qiáng)化模型的各種能力。

這就相當(dāng)于具身智能擁有一個(gè)活的大腦了。

誰(shuí)看了不說(shuō)一句how pay（狗頭）～

尤其重要的是，因?yàn)榫邆渥灾鞲履芰Γ?strong>Awaker 1.0不單單是可以和具身智能適配，它還適用于更廣泛的行業(yè)場(chǎng)景，能夠解決更復(fù)雜的實(shí)際任務(wù)。

例如，Awaker 1.0與各種智能設(shè)備結(jié)合，從而實(shí)現(xiàn)云邊協(xié)同。

這時(shí)候，Awaker 1.0就是部署在云端的“大腦”，觀察、指揮，控制各種邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)。

而邊端智能設(shè)備執(zhí)行各項(xiàng)任務(wù)時(shí)獲得的反饋，又會(huì)源源不斷地傳回給Awaker 1.0，讓它持續(xù)地獲得訓(xùn)練數(shù)據(jù)，不斷進(jìn)行自我更新。

這可不是紙上談兵，Awaker 1.0與智能設(shè)備的云邊協(xié)同的技術(shù)路線，已經(jīng)應(yīng)用在電網(wǎng)智能巡檢、智慧城市等應(yīng)用場(chǎng)景中，并取得了遠(yuǎn)好于傳統(tǒng)小模型的識(shí)別效果。

超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

多模態(tài)大模型能聽(tīng)、能看、能說(shuō)，在語(yǔ)音識(shí)別、圖像處理、自然語(yǔ)言理解等多個(gè)領(lǐng)域展現(xiàn)出了巨大的潛力和應(yīng)用價(jià)值，幾乎無(wú)所不能。

但它的煩惱很明顯，如何不斷吸收新知識(shí)、適應(yīng)新變化？

可以說(shuō)，修煉內(nèi)功、提升武藝成為了多模態(tài)大模型面臨的一個(gè)重要課題。

智子引擎Awaker 1.0的問(wèn)世，為多模態(tài)大模型的自我超越提供了一把鑰匙。

它好像會(huì)了那個(gè)吸星大法，通過(guò)自主更新機(jī)制，打破了數(shù)據(jù)短缺的瓶頸，為多模態(tài)大模型的持續(xù)學(xué)習(xí)和自我進(jìn)化提供了可能；再就是利用云邊協(xié)同技術(shù)，勇闖在具身智能等智能體設(shè)備的具體應(yīng)用場(chǎng)景。

這或許是邁向AGI的一小步，但同時(shí)也是多模態(tài)大模型自我超越之旅的一個(gè)開(kāi)始。

漫長(zhǎng)而艱難的旅程，需要智子引擎這樣的團(tuán)隊(duì)，向技術(shù)的高峰不斷攀登。

本文鏈接：http://morphism.cn/news414.html超級(jí)智能體生命力覺(jué)醒可自我更新的AI來(lái)了

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com。天上從來(lái)不會(huì)掉餡餅，請(qǐng)大家時(shí)刻謹(jǐn)防詐騙