粉色連衣裙、清華黑色大波浪的大佬美女,驚恐轉(zhuǎn)身后,整活露出了一神似張宋小寶的克穿褲嬌俏面龐。微張的上東嘴唇,欲語還休。北大背帶 美國(guó)的花襖三好青年馬斯克,身著東北大花襖,李白站在微風(fēng)陣陣的穿上白宮前邊。小手一揣,清華略帶局促地露出一抹拘謹(jǐn)、大佬正派的整活微笑。 而另一邊,克穿褲魔卡少女小櫻也正拉著隔壁的上東蕾姆,在三里屯商場(chǎng)里逛街。北大背帶當(dāng)然了,世超知道見識(shí)過各種 P 圖軟件和 AI 技術(shù)的你。估計(jì)看到這些效果,也是輕輕一笑說: 早半年前,哥就見過這種效果了。哥不僅能讓馬斯克換裝,就是讓他跳段舞,也是手拿把掐了。 但且慢,上面這些視頻的生成方法,可能跟你以前見過的都不一樣。這個(gè)用的是生數(shù)科技聯(lián)合清華團(tuán)隊(duì)推出的視頻模型 Vidu 1.5 ,這個(gè)模型有一個(gè)新的能力:多主體一致性。 用大白話來說,就是我們可以上傳多張圖片來生成視頻。并且保證這些復(fù)雜的元素不會(huì)變形。比如上傳角色、物體和地點(diǎn)的圖,它可以用你指定的這些元素,做出一條視頻來。 這樣我們?cè)谏傻臅r(shí)候,就可以自己設(shè)定人物、物體還有場(chǎng)景。像馬斯克這條視頻,就是用了一張馬斯克的大頭照,一件花襖,還有一張白宮的圖片,生成出來的。 丟一句簡(jiǎn)單的提示詞, Vidu 就可以復(fù)刻出一條以假亂真的視頻。讓馬斯克,穿上你給的大花襖,在白宮前秀一段。 這么整的好處顯而易見,我們可以手動(dòng)控制AI 生成的素材,讓視頻更合我們心意。以前我們只能扔一句話,或者扔一張照片,讓 AI 自由發(fā)揮。最后結(jié)果很容易就脫離我們的預(yù)期。 比如你直接說讓馬斯克穿著大花襖,它就會(huì)真的在馬褂上,畫幾朵大花。 如果 AI 的詞庫里,就沒有大花襖這個(gè)東西。不論我們?cè)趺凑{(diào)整提示詞,最后都沒法生成出來。 可現(xiàn)在,你不用使勁憋提示詞了,只需要閉眼甩一張圖。之前還沒有視頻模型可以做到這樣,很多時(shí)候能把一張上傳的圖片處理明白,就已經(jīng)相當(dāng)?shù)脛帕恕K裕?Vidu 這個(gè)模型一發(fā)布。外網(wǎng)的各種網(wǎng)友們,立馬就驚呼,然后開機(jī)上手了。 大家也可以直接打開 Vidu 的官方,上手試試看。不過,現(xiàn)在只有三次的免費(fèi)機(jī)會(huì),后面每次試用就會(huì)需要消耗 4 個(gè)積分。為了給大家整個(gè)明白,世超試用了一天。大伙可以往下滑,看看我的效果,再?zèng)Q定要不要玩。按照編輯部的約定俗成,咱們的吉祥物一般都是我第一個(gè)試的。 這回,我整了兩張火鍋戴頭盔的照片,又上傳了一張抹茶綠的雅迪電動(dòng)車。輸入提示詞:金毛犬在騎雅迪電動(dòng)車。 大概幾十秒之后,帶著黑色防風(fēng)鏡的火鍋,就這么絲滑地騎上了小電驢。連胸前藍(lán)色的掛飾,還有雅迪的橙色車標(biāo),都完整的保留了下來。這個(gè)一致性效果還是挺驚艷的。 還貼心地加上了吐舌頭和搖尾巴的小細(xì)節(jié)。 ?雖然火鍋這個(gè)滑滑板一樣的騎車動(dòng)作,是肯定沒法上路的。不過,因?yàn)楣繁緛砭筒粫?huì)騎電驢,咱們也不能強(qiáng)求。后面,世超換了張喬布斯的大頭照,這個(gè)效果就很可以了。而且,我還特地上了點(diǎn)難度。讓喬布斯也和馬斯克一樣,穿上了咱們特色服飾軍大衣。 硬朗五官配上筆挺大衣,效果還是非常板正的。喬布斯應(yīng)該也沒想到,自己有一天會(huì)坐上雅迪的橘色雅座吧。雖然只有正臉照,但是鏡頭轉(zhuǎn)到側(cè)方的時(shí)候,人物的特征( 比如小禿頭 )還是還原得挺精準(zhǔn)。 ? 不過,上面這些都還是單一的人物主體,外加一個(gè)場(chǎng)景或者物品。抓取起來還是比較簡(jiǎn)單。 一般來說,我們加入的主體越多,大模型就可能抓取錯(cuò)誤。于是我試了一下上傳一張?zhí)撇Ⅻc(diǎn)秋香里經(jīng)典圖,然后要求把臉部替換成我給的另一張圖。 它從一堆人的背影里,精準(zhǔn)地找到秋香。讓她把臉緩緩轉(zhuǎn)過來,微微露出側(cè)臉。雖然沒有全臉示人,但眉眼就足夠一眼丁真。 后面,我又加上了難度。不僅要替換服裝,還要加上動(dòng)作。讓語文課本上的李白和蔡徐坤來個(gè)對(duì)換:李白穿著背帶褲在打籃球。 這次, Vidu 給的效果就相當(dāng)抽象了。它直接給坤換了個(gè)畫風(fēng),整出了一個(gè)動(dòng)畫版。雖說保留的格子褲花紋小細(xì)節(jié),足以體現(xiàn)用心。 但這個(gè)李白 260 °水調(diào)大轉(zhuǎn)頭,畫面實(shí)在過于詭異了。也沒有完成我輸入的【 打籃球 】的指令。 在后面測(cè)試中,世超發(fā)現(xiàn) Vidu 雖然能摳主體。但是,如果動(dòng)作比較大,或者畫面變化比較多,就容易出現(xiàn)上面突然轉(zhuǎn)頭的小 bug 。比如,讓它把胖虎的玩具人偶放在冰雪女王的手上。 它確實(shí)能處理多個(gè)主體,讓塑膠胖虎憑空變出來,而且,冰雪女王的動(dòng)作和場(chǎng)景連貫性,基本可以以假亂真。但是,換進(jìn)去的胖虎的動(dòng)作,就明顯有點(diǎn)小崩。在五秒里,連續(xù)抽搐變形了數(shù)次。 在一下午的測(cè)試?yán)铮?Vidu 的生成效果總是時(shí)好時(shí)壞。世超一直在上一秒驚艷,下一秒驚嚇的反復(fù)中來來回回。比如讓雷軍坐到問界的車?yán)飺]手。雷軍就這么水靈靈地掉到了車外面,而且,臉也早已經(jīng)崩壞了。 但是,同時(shí)它又能完美地讓樂高國(guó)王,在城堡上舉起長(zhǎng)劍,激昂演講。保持場(chǎng)景和人物,都連貫一致。 崩多了之后,我甚至摸出了一些門道。如果你看完文章后,打算去試試,那么在給主體照片的時(shí)候,最好找背景比較干凈的圖片。主體越好摳出來,生成的準(zhǔn)確率就越高。 同時(shí),給一個(gè)主體上傳多個(gè)角度的照片,也能讓他動(dòng)起來更自然。因?yàn)槟P涂梢詷?gòu)建出一個(gè)更完整的人物。 雖然根據(jù) Vidu 官方的說法,他們這次放棄了業(yè)界主流的 LoRA 微調(diào)的方法。因?yàn)槟欠N方法,很容易出現(xiàn)過擬合,就是在理解主體的過程中,會(huì)遺忘大量原先的知識(shí)。所以,主體的動(dòng)作和肢體很容易崩壞,難以控制。畫面里東西越多,變化越多,就越容易失控。而 Vidu 的新模型是用類似于大語言模型的技術(shù),把所有輸入都處理成視覺數(shù)據(jù),并和大語言模型一樣能 “ 上下文記憶 ” 地處理這些輸入數(shù)據(jù)。這確實(shí)讓 Vidu 在多主體的處理上,邁出了一大步。 但與此同時(shí),經(jīng)過簡(jiǎn)單測(cè)試后,世超覺得 Vidu 的這個(gè)技術(shù)還有很長(zhǎng)一段路需要走。其實(shí), Vidu 暴露的問題跟早期的文成視頻很像。就是意思都到了,但是細(xì)節(jié)還不夠,效果不穩(wěn)定,時(shí)不時(shí)抽一下風(fēng)。像這個(gè)電動(dòng)車和公路場(chǎng)景,再怎么切換鏡頭都沒有變形。就是運(yùn)動(dòng)的時(shí)候,人物出現(xiàn)了影分身。
如果你想用它完全替代視頻工作者的工作,世超覺得還是得等等。但 Vidu 肯定是值得上手玩玩看的。畢竟誰不想讓喜歡的角色穿上我們挑選的衣服,不想讓心意的 IP 角色或者明星,跨界同框一下呢。 |