用完這次更新的豆包 我想把PS卸了
有一說一,用完前幾天就已經(jīng)立冬了,次更眼瞅著又快到年底了現(xiàn)在。新的想把卸
擱往年的豆包情況,到了年底這才到各大廠商紛紛發(fā)力的用完時候,年關(guān)將近嘛,次更總得搞出點啥新東西,新的想把卸給大家漲漲眼界。豆包
雖然說最近關(guān)于 AI 的用完新消息不是很多,但是次更人家這段時間肯定也沒閑著,這不,新的想把卸一個多月前,豆包也就是用完 925 那天我們才跟大家說了豆包的視頻生成,這兩天,次更豆包又又又上新了新功能。新的想把卸
簡單來說,這回豆包支持 “ 一句話編輯修改圖片 ” 了。
雖然文生圖已經(jīng)搞了兩三年,但這回,我敢說真算是國產(chǎn) AI 文生圖里的新突破了。
可能不少差友還覺得, AI 生圖不是已經(jīng)挺厲害的了嘛,怎么還不能修改圖片?
實際上,我們這幾年也測了不少文生圖大模型了,支持圖片精確修改的還真沒有,目前做的最好的真就是豆包。
就比如說 ChatGPT-4o ,你讓他畫個打籃球的人還可以,但是你要想改動一下,把環(huán)境換成沙灘,不好意思,整張圖都變了。
不止 OpenAI 的不行,谷歌的 Gemini 也一樣。
本來說讓它把圖中的雞變成鱷魚,結(jié)果不僅沒變成,還把背景給全改了,兩次的籃球也完全不一樣。
拿 AI 自己生的圖搞都這樣,更別說本地上傳的照片了。
就拿最簡單的給圖像換顏色來說,即使在豆包以前的版本里,這種效果也不理想。
比如我們直接把 925 活動里,給脖子哥拍的照片傳上去,然后告訴豆包,你給我把脖子哥抱著的小白狗換成小黃。
結(jié)果就是,整張圖都變了,風(fēng)格大變就算了,構(gòu)圖也不一樣。
但是現(xiàn)在,這回用上這個上新了的豆包,同樣的照片同樣的提示詞,你再看看:
滑動查看AI效果
雖然有一點點小瑕疵,但要跟前面的一比,是不是高下立判!
不但保留了脖子哥的動作,表情,小狗的形狀也跟上傳的圖差不多,說換成黃色就換黃色,一點不含糊。
再來試試圖像消除,效果也不錯。
Prompt: 幫我生成圖片:消除白色小狗
發(fā)現(xiàn)沒,這個文生圖變得智能了,它能識別出照片里的內(nèi)容,你想修改啥他就只改啥,哪里不對改哪里, so eazy!
而且不僅能做到識別,修改顏色,消除物品這些基本功能,你想整點復(fù)雜的也一樣可以。
比如更換圖片的背景。
我們把差評硬件部視頻里,米羅的照片傳上去,然后叫豆包把我們的拍攝間背景改成上海陸家嘴。
Prompt: 幫我生成圖片:背景換成陸家嘴
哎嘿!還真就換成了,紙張的折痕還都一點沒變。
你甚至可以分得清背景里,哪個是 “ 開瓶器 ” 環(huán)球金融中心;哪個是 “ 注射器 ” 金茂大廈;哪個是 “ 打蛋器 ” 上海中心大廈,陸家嘴三件套安排的明明白白。不知道的故意第一眼看去,還真以為我們公司搬到浦東了。
除了這些現(xiàn)實中存在的場景,科幻作品中想象的東西,這回豆包也能夠生成。
我們讓豆包把米羅改造成戰(zhàn)錘 40K 風(fēng)格,結(jié)果也是相當(dāng)?shù)?amazing 啊,雖然換了個人種,但是五官還算依稀能看出米羅的影子,要是戴上頭盔,真就跟星際戰(zhàn)士一樣了。
Prompt: 幫我生成圖片:衣服換成戰(zhàn)錘40K裝甲,手拿激光炮
更重要的是,雖然人物的著裝和風(fēng)格變了,但圖片前面的桌子,跟背景的墻壁、窗簾、掛畫可都是一點沒動。
就這個效果,你要不跟別人說,誰知道這到底是 AI 生成還是 PS ,一眼望去是真分不清。
不過,在人物測試中我們還發(fā)現(xiàn),如果你拿AI 生成的圖進行修改,效果比用照片還要強上不少。
你比如就說,我們先生成一張屏幕前各位彥祖的日系寫真,然后告訴豆包,把彥祖的襯衣?lián)Q換顏色。
Prompt: 幫我生成圖片:衣服顏色換成棕色
你瞅瞅,臉部的細節(jié),頭發(fā)的細節(jié),甚至背后墻磚上的紋理,遠處的電線桿子,都一點沒動,說換裝就換裝,那叫一個干凈利落。
當(dāng)然了,用人像演示還是為了測試它在人臉細節(jié)上的把握能力,畢竟人臉這玩意,一但生成的不好,就會產(chǎn)生恐怖歡樂谷效應(yīng),一眼盯真的事。
戴珍珠耳環(huán)的少女都見過吧,世界名畫,我們讓豆包給你把人臉換成貓臉版本,來看看它對跨物種的面部融合做的咋樣。
Prompt: 幫我生成圖片:把人臉換成貓
結(jié)果整體瞅下來,表現(xiàn)還是相當(dāng)不錯。不但保留了頭飾、衣服紋理的細節(jié),小貓耳朵這塊也處理的很好,沒穿模,直接能拿去當(dāng)微信頭像用了。
除了照片人像這些,物品啥的理論上會更容易,但是我們還得測,比方說汽車。
我們把一張大眾 CC 的照片傳上去,讓它給換成奔馳。
Prompt: 幫我生成圖片:車頭換成奔馳
結(jié)果也還行,前臉一套都改成了奔馳 C260 ,還是現(xiàn)款的,其他的像車身顏色,周圍的環(huán)境,也都沒變。
但遇上了多人物,復(fù)雜場景的情況下,豆包又會表現(xiàn)成啥樣呢?
就像劉華強買瓜這段,咱今天就把這個換成劉華強買炸雞和棉花。
結(jié)果效果還怪好嘞,瓜販子衣服上的圖案都一模一樣,所有的西瓜都改掉了,特聰明。
Prompt: 幫我生成圖片:把西瓜換成棉花和炸雞
還有一個重點是,如果同時給豆包不同的修改要求,它能不能全部完成。
就比如,西游記里的唐三藏,我想給改成戰(zhàn)地版唐三葬,給的提示一句話里有三個指令,同時要完成戴墨鏡,拿機槍,換背景,三樣任務(wù)。
滑動查看AI效果
Emmm ,結(jié)果還是全部都完成了,效果也可以。墨鏡一戴誰也不愛,身處戰(zhàn)場手拿機槍,六根清凈貧鈾彈,一息三千六百轉(zhuǎn),殺生為護生,斬業(yè)非斬人,主打一個物理超度。
綜合來看的話,不止照片、視頻截圖,包括在制作梗圖表情包這一塊,豆包都能夠手到擒來,即便細節(jié)上還能發(fā)現(xiàn)可以提高的地方,但話又說回來,不怕人比人,就怕貨比貨嘛。
就目前來說,比起以前的文生圖模型,確實是高的不知道哪里去了。
看到這可能有差友就要問了,世超鴿鴿,為啥豆包這次突然就跟換了個媽媽生的一樣,比之前聰明了這么多?
該說不說,這里面確實有門道。
這么說吧,我們以前用的文生圖模型,基本用的都是 Diffusion 技術(shù),是先把圖片一步步變糊,然后反向分析怎么從糊到清晰,從而產(chǎn)生新的圖像。
但問題是,在這個過程中,模型生成圖像是基于全局信息的,要想局部修改,不好意思,整體全都要重來,所以每次生成的都不一樣,也沒法在細節(jié)上再調(diào)整。
我們這兩年也測了不少文生圖模型,咋說呢,東西是沒問題,可以生成,但都沒法一模一樣的,準(zhǔn)確還原出想象中那個樣子,就比如這種:
而那些 AI 藝術(shù)家們,搞出來的都是下面這種,細節(jié)拉滿,跟電影截圖似的。
是不是感覺跟人家用的都不是一個軟件?
圖源:Mac Baconai , “Al 的異星 cult 幻想之城 ”
可要實現(xiàn)人家這種效果,提示詞弄的就得巨復(fù)雜,還要微調(diào)很久很久,甚至他們還編纂了專門的提示詞辭典。大伙要是沒訓(xùn)練過這個,實際上就很難做好圖,更別說把自己的照片傳上去編輯了。
如果能像畫畫一樣,哪里不對改哪里,逐漸成型就好了。
而豆包這次更新的,正是這個方向。為了實現(xiàn)圖片編輯的效果,豆包這次的文生圖采用的是 SeedEdit 模型。
相比只是通過文字生成,這玩意更微操,它會把圖片的理解和生成融合到一個統(tǒng)一的大模型框架里,從而在生成和編輯圖像的時候,可以事無巨細的參考咱傳上去的圖像,完事兒控制的就相對精準(zhǔn),而且出來的圖片也更自然。
打個比方,如果說以前的文生圖模型是無情潑墨畫匠, SeedEdit 就更像畫筆精巧,有創(chuàng)造力的畫家。實際我們上面用下來,可以說效果確實相當(dāng)不錯。
實際上, SeedEdit 這樣的技術(shù),目前行業(yè)內(nèi)也剛開始用,能集成在 AI 助手里的,豆包其實是第一家。
而像 AI 編輯圖片這種方向,現(xiàn)在早就已經(jīng)是是圖片編輯行業(yè)的標(biāo)配,各種修圖軟件、剪輯軟件甚至手機相冊里都在做。
但是先不說效果,起碼現(xiàn)在其實大多數(shù)產(chǎn)品都還是要手動涂抹修改,或者自己在上面 P 圖,加配飾,不知道大伙怎么覺得,我反正每次 P 背景,消除人物,都得花不少功夫。。。
至于 AI 直接出的圖嘛,咱上面也說了,跟抽卡似的,很難一次就有理想的圖,還沒法再二次修改。
這也就是為啥咱開頭就說,由 AI 直接控制的編輯修改圖片,會是一個技術(shù)突破了。
換句話說,這個技術(shù)不僅改變的是 AI 文生圖,其他的照片修改、視頻剪輯啥的,基本全都能用得到。
到時候,直接跟語音助手說一聲給我出圖!AI 就幫你往你想的方向調(diào)整,美美當(dāng)甲方,想想都爽。