大家還記得 Stable Diffusion嘛,就是那個(gè)曾經(jīng)和 DALL·E 、 Midjourney 齊名的圖像生成 AI 。
經(jīng)歷了老板跑路,核心開發(fā)成員離職,昔日攪動(dòng)圖像 AI 市場的 Stability AI ,內(nèi)部已經(jīng)亂成一鍋粥了。
近幾個(gè)月來,關(guān)于它資金鏈斷裂、尋求賣身的消息,是沒怎么斷過。
而在前東家身陷狼狽處境,正想法子自救時(shí),年初離開的那批成員,就正正好對(duì)標(biāo)Stable Diffusion 成立了一家新公司Black Forest Lab ( 黑森林實(shí)驗(yàn)室 )。
就在這個(gè)月月初,他們宣布成立新公司的時(shí)候,也一口氣放出了三個(gè)不同體量的文生圖模型 FLUX.1 。
有主打圖片質(zhì)量的大杯 pro ;兼顧速度和圖片質(zhì)量的中杯 dev ;還有人稱 “ 速度旋風(fēng) ” 的小杯 schnell 。
按照他們官網(wǎng)的說法,大中杯的 FLUX ,已經(jīng)成了所有圖片 AI 里厲害的存在。
拆分出來的各項(xiàng)能力,像是視覺質(zhì)量、尺寸可變性、輸出多樣性等等,也都要比其他模型強(qiáng)不少。
不光官方這么說,在不少網(wǎng)友和媒體的嘴里,剛發(fā)布的這個(gè) FLUX ,也已經(jīng)到了拳打 Midjourney ,腳踢 DALL·E 的程度。
看網(wǎng)上的評(píng)論,倒是把世超的興趣給勾起來了。FLUX 是不是真像大伙們說得那么厲害,這次我們拉來了 Midjourney ,把它和大杯的 FLUX 放一塊一起測(cè)了測(cè)。
開局我們先來一個(gè)常規(guī)的測(cè)試題熱熱身,分別讓它們倆畫一幅中國的水墨畫。
結(jié)果表現(xiàn)都還不錯(cuò),像漁夫、群山、蘆葦?shù)忍崾驹~里的內(nèi)容,全都有畫出來。不過 Midjourney 這邊畫得太陽,著實(shí)有點(diǎn)太大了,也沒啥夕陽的感覺。
提示詞:
中國水墨畫風(fēng)格,一個(gè)孤獨(dú)的漁夫在傳統(tǒng)的木船上,在夕陽下在寧靜的湖面上輕輕漂流,中國水墨畫風(fēng)格,溫暖的藍(lán)色調(diào)映照著平靜的水面,柔和的筆觸捕捉著傍晚的寧靜,遠(yuǎn)處的群山在漸漸的燈光下剪影,岸邊的傳統(tǒng)小屋,蘆葦在微風(fēng)中搖曳, 8K 分辨率,電影般的感覺,懷舊而寧靜的氛圍
FLUX ( 左 ), Midjourney ( 右 )
關(guān)注圖片 AI 這塊的朋友應(yīng)該都知道, “ 文字生成太差 ” 幾乎是所有 AI 都再過跟頭的地方。之前 DALL·E 也曾專門針對(duì)這個(gè)弱項(xiàng)優(yōu)化過一次,但偶爾也還是會(huì)出錯(cuò)。
而這次,據(jù)說 FLUX 在這塊的能力已經(jīng)是爐火純青了,于是我專門選了幾個(gè)要生成文字的提示詞丟給它和 Midjorney 。
先讓它們各自生成一個(gè)帶有 Prada 商標(biāo)的包包,后給出的答案都還算不錯(cuò),文字都沒出現(xiàn)錯(cuò)誤。
看圖片整體的效果也是各有千秋, FLUX 不僅把文字寫對(duì)了,甚至連 Prada 那個(gè)倒三角 LOGO 都給畫了出來,而 Midjourney 的看起來則更時(shí)尚點(diǎn)兒。
提示詞:一個(gè)大的白色 “ Prada ” 手提包,小人物用冰塊搭建而成,被冰雪包圍,風(fēng)格像時(shí)尚廣告,靈感來源于 prouce 雜志廣告、高分辨率攝影、廣告靈感的印刷設(shè)計(jì)風(fēng)格
FLUX ( 左 ), Midjourney ( 右 )
接下來再上點(diǎn)難度,讓它們給短袖設(shè)計(jì)一個(gè)復(fù)古的圖片,而且還要加上兩個(gè)英文單詞。
這次它倆也都沒出啥大錯(cuò),但要論整體效果的話,世超個(gè)人覺得,還是 Midjourney 的更好一些。
提示詞:復(fù)古風(fēng)格的 T 恤設(shè)計(jì)以一輛帶有方格旗的老式飆車為特色,并附有文字 “Lagertha” 和 “Semper Fi” ,以單色背景為背景。舉著旗幟的拉格薩身上有紋身。這幅藝術(shù)作品的風(fēng)格捕捉到了她的動(dòng)作姿勢(shì),展示了車速和維京力量的力量。這是一個(gè)高對(duì)比度的插圖,突出了他們的運(yùn)動(dòng)裝和大膽的文字排版。
FLUX ( 左 ), Midjourney ( 右 )
看一個(gè)圖像模型能力,經(jīng)典問題 “ 畫手 ” 肯定也繞不過。
Midjourney 這邊呢,依舊是有點(diǎn)不太穩(wěn)定,生成的手時(shí)好時(shí)壞,像右邊這張圖,比個(gè)耶就莫名多出一個(gè)小指。
兩張均由 Midjourney 生成
而 FLUX 的效果,說實(shí)話還是挺讓人意外的,無論是剪貼畫風(fēng)格,還是寫實(shí)風(fēng)格,手部幾乎都看不出啥破綻來。
兩張均由 FLUX 生成
到這為止, FLUX 在一些圖片細(xì)節(jié)和小問題上,處理得還不錯(cuò)。
當(dāng)然了,在一定程度上,圖像 AI 也是個(gè)幫大伙實(shí)現(xiàn)想象力的工具,于是世超又丟了一些腦洞大的提示詞。
提示詞:一個(gè)穿著紅色連衣裙的年輕女孩,坐在一條長著巨大牙齒和眼睛的巨龍旁邊。她正面對(duì)它,好像他們是朋友或好警察。這個(gè)場景發(fā)生在山里的雪石里。以詹姆斯 · 卡梅隆的風(fēng)格拍攝的《 狼的秘密生活 》, 70 年代的電影。
FLUX ( 左 ), Midjourney ( 右 )
emmm 。。。誰好誰壞就不用世超幫大伙下結(jié)論了吧, FLUX 基本上就是一眼 AI 的程度,反觀 Midjourney ,到真有點(diǎn)真人特效的味兒。
之后,世超又給 FLUX 為了個(gè)簡單點(diǎn)的提示詞: “ 現(xiàn)代文明的毀滅 ” ,看看它自個(gè)兒的想象力咋樣。
結(jié)果這次,它和 Midjourney 都栽跟頭了。
單看圖片效果, Midjourney 會(huì)更勝一籌,確實(shí)是把史詩感拿捏了,但這建筑前看后看,跟現(xiàn)代文明也半毛錢關(guān)系啊。。。
FLUX ( 左 ), Midjourney ( 右 )
有趣的是, FLUX 在生成夸張漫畫版本的名人肖像時(shí),還挺在行。像是馬斯克和喬布斯,它在生成時(shí),五官特色抓得都挺精準(zhǔn)。
兩張均由 FLUX 生成
整體體驗(yàn)下來,世超覺得 FLUX 的真實(shí)水平,還談不上一騎絕塵,但也差不到哪里去。
畢竟還是 Stable Diffusion 的原班人馬搞出來的,差不多就和 Midjourney 一個(gè)梯隊(duì)。
而且新公司黑森林在月初推出 FLUX 的時(shí)候,還官宣了自家的融資進(jìn)度,到現(xiàn)在已經(jīng)完成了3100 萬美元的融資。
更重要的是,雖然黑森林的各位都離開 Stability AI 了,但還是繼承了它開源的傳統(tǒng)美德,中杯、小杯的 FLUX 都開源。
這還沒完,推出圖片 AI ,似乎也只是他們趕進(jìn)度的一環(huán)。官網(wǎng)上,他們也挑明了下一步的計(jì)劃,要做視頻 AI 里的 SOTA 。
但話說回來,圖片 AI 的商業(yè)化都是快被討論爛的一個(gè)話題了。
黑森林的前東家 Stability AI 就是因?yàn)樯虡I(yè)化的問題,爛攤子一堆。而它自個(gè)兒,現(xiàn)在搞得開源,還有付費(fèi)模型那套,和之前的 Stability AI 基本沒啥差別。
后續(xù)在商業(yè)化上,會(huì)不會(huì)有啥其他新動(dòng)作,咱只能再觀望觀望,畢竟也才剛出來。
可別照搬 Stability AI 的老路,又重走一遍。。。
本文鏈接:http://morphism.cn/news41569.html剛出來就被冠上強(qiáng)稱號(hào) 但這圖像AI好像也就那樣