國(guó)產(chǎn)全AI游戲來(lái)了 一段文字、一張圖 就能生成模擬開(kāi)放世界游戲視頻
距離普通人憑想法就能做出游戲的國(guó)產(chǎn)時(shí)代,又近了一步。戲段戲視
AI 游戲生成天花板今年以來(lái)不斷突破,文字就在昨天,張圖國(guó)產(chǎn)游戲 AI 團(tuán)隊(duì)也加入卷出了新高度。生擬開(kāi)
巨人網(wǎng)絡(luò)發(fā)布了 " 千影 QianYing" 有聲游戲生成大模型,成模其中包括游戲視頻生成大模型 YingGame、放世視頻配音大模型 YingSound。界游
先來(lái)感受一段 1 分 26 秒的國(guó)產(chǎn)生成樣片:
用一段文字、一張圖,戲段戲視就能生成模擬開(kāi)放世界游戲的文字視頻,并且有聲、張圖可交互,生擬開(kāi)可操控角色的成模多種動(dòng)作。
面向開(kāi)放世界游戲,放世無(wú)需游戲引擎
概括來(lái)說(shuō),YingGame 是一個(gè)面向開(kāi)放世界游戲的視頻生成大模型,研究團(tuán)隊(duì)來(lái)自巨人網(wǎng)絡(luò) AI Lab、清華大學(xué) SATLab,首次實(shí)現(xiàn)角色多樣動(dòng)作的交互控制、自定義游戲角色,同時(shí)具備更好的游戲物理仿真特性。
精確的物理規(guī)律仿真
從生成的視頻中看,無(wú)論是汽車(chē)碰撞、火焰燃燒這類(lèi)大場(chǎng)面,還是水中慢走、障礙物自動(dòng)繞行這種人物行進(jìn),都表現(xiàn)出了出色的遵循物理規(guī)律能力。
多樣動(dòng)作控制
交互對(duì)游戲至關(guān)重要,YingGame 能夠理解用戶(hù)的輸入交互,包括文本、圖像或鼠標(biāo)、鍵盤(pán)按鍵等操作信號(hào),從而讓用戶(hù)能夠操控游戲角色的多樣動(dòng)作。
視頻中展示了角色在開(kāi)槍、變身、施法、使用道具、攀爬、匍匐、跑跳等肢體動(dòng)作的交互,相比同類(lèi)模型更加豐富、絲滑。
角色個(gè)性化與精細(xì)主體控制
YingGame 還支持輸入一張角色圖片,實(shí)現(xiàn)角色自定義生成,同時(shí)對(duì)角色主體實(shí)現(xiàn)精細(xì)化控制,從過(guò)去的 AI 捏臉跨越到現(xiàn)在的 AI 捏人。
第一人稱(chēng)視角
此外,還看到模型生成的第一人稱(chēng)視角的游戲畫(huà)面,不得不說(shuō),這個(gè)視角有很足的游戲沉浸感。
怎么實(shí)現(xiàn)的?
從技術(shù)上看,YingGame 通過(guò)融合跨模態(tài)特征、細(xì)粒度角色表征、運(yùn)動(dòng)增強(qiáng)與多階段訓(xùn)練策略,以及所構(gòu)建的高效、高質(zhì)量游戲視頻訓(xùn)練數(shù)據(jù)生產(chǎn)管線,使得生成內(nèi)容具備可交互能力的多樣動(dòng)作控制、角色自定義與精細(xì)主體控制、復(fù)雜運(yùn)動(dòng)與動(dòng)作連續(xù)性等特性。
在交互性實(shí)現(xiàn)上,YingGame 結(jié)合了多個(gè) Interactive Network 模塊:理解用戶(hù)輸入的多模態(tài)交互方式,實(shí)現(xiàn)多樣動(dòng)作控制的多模態(tài)交互網(wǎng)絡(luò) — MMIN ( Multi-Modal Interactive Network ) ;實(shí)現(xiàn)復(fù)雜與連續(xù)角色動(dòng)作生成的動(dòng)作網(wǎng)絡(luò) — IMN ( Interactive Motion Network ) ;自定義角色生成與提高角色生成質(zhì)量的角色網(wǎng)絡(luò) — ICN ( Interactive Character Network ) 。
此外,為實(shí)現(xiàn)高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建,巨人 AI 團(tuán)隊(duì)設(shè)計(jì)了一條高效的游戲視頻數(shù)據(jù)處理管線:
基于場(chǎng)景與高光產(chǎn)出高質(zhì)量視頻片段,其中對(duì)高光視頻片段進(jìn)行音頻信息提取,作為 V2A 訓(xùn)練集;
基于運(yùn)動(dòng)得分、美學(xué)評(píng)分等進(jìn)行視頻過(guò)濾;
vLLM-based video caption 流程,并對(duì)結(jié)果進(jìn)行 clip score 文本視頻對(duì)齊評(píng)分過(guò)濾;
多任務(wù)數(shù)據(jù)處理,如分割、主體檢測(cè)、姿勢(shì)估計(jì)、深度估計(jì)、相機(jī)運(yùn)動(dòng)估計(jì)等。
讓 AI 游戲進(jìn)入有聲時(shí)代
除了 YingGame 之外,巨人還發(fā)布了針對(duì)視頻配音場(chǎng)景的多模態(tài)音效生成大模型 YingSound。
這是在此之前 AI 游戲生成領(lǐng)域沒(méi)有實(shí)現(xiàn)的,而 " 聲音 " 是游戲的基本要素。
YingSound 由巨人網(wǎng)絡(luò) AI Lab、西工大 ASLP Lab 和浙江大學(xué)等聯(lián)合研發(fā),它最重要的技能是:給無(wú)聲視頻配音效,實(shí)現(xiàn)音畫(huà)同步。
直接聽(tīng)聽(tīng) YingSound 生成的效果:
YingSound 有超強(qiáng)的時(shí)間對(duì)齊和視頻語(yǔ)義理解能力,支持多種類(lèi)型的高精細(xì)度音效生成,并且具備多樣化應(yīng)用場(chǎng)景泛化能力,包括游戲視頻、動(dòng)漫視頻、真實(shí)世界視頻、AI 生成視頻等。
理解各種視頻畫(huà)面能力一絕
來(lái)一段游戲的配音示例,通過(guò)演示視頻可以清晰看到,這個(gè)模型能夠精確地生成與場(chǎng)景高度匹配的音效,包括開(kāi)鏡、炮轟、射擊等聲音,完美還原坦克進(jìn)攻與士兵防守射擊的聲音,創(chuàng)造了沉浸式的游戲體驗(yàn)。
△視頻源自 《戰(zhàn)地游戲》錄屏
在動(dòng)漫場(chǎng)景中,模型展示了對(duì)復(fù)雜劇情的理解能力。例如,在一段鳥(niǎo)兒互相扔蛋的動(dòng)畫(huà)中,模型生成了從驚訝到扔蛋、蛋飛行軌跡、接住蛋等一系列卡點(diǎn)且高度符合視頻內(nèi)容的音效。
△視頻源自 動(dòng)畫(huà)《Boom》片段
再來(lái)看看以下小球快速移動(dòng)的畫(huà)面,模型生成的聲音能夠精準(zhǔn)匹配畫(huà)面的動(dòng)態(tài)變化,并針對(duì)小球不同狀態(tài)生成相應(yīng)的場(chǎng)景音效,充分展現(xiàn)了其對(duì)動(dòng)畫(huà)內(nèi)容的深度理解。
△視頻源自 3D 動(dòng)畫(huà)短片《The Marble》片段
在真實(shí)世界場(chǎng)景中,通過(guò)一段激烈的乒乓球?qū)?zhàn)視頻,模型能夠精準(zhǔn)地生成每次擊球所產(chǎn)生的音效,甚至還生成了球員跑動(dòng)時(shí)鞋底與地面摩擦的聲音,這充分展現(xiàn) YingSound 對(duì)視頻整體語(yǔ)義的深刻理解和出色的音效生成能力。
△視頻源自 乒乓球比賽測(cè)評(píng)結(jié)果領(lǐng)先
研究團(tuán)隊(duì)公開(kāi)了 YingSound 的兩個(gè)核心模塊:基于 DiT 的 Flow-Matching 構(gòu)建的音效生成模塊,以及多模態(tài)思維鏈(Multi-modal CoT)控制模塊,為音效生成提供精準(zhǔn)支持。
在音效生成模塊中,團(tuán)隊(duì)基于 DiT 的 Flow-Matching 框架,提出了創(chuàng)新的音頻 - 視覺(jué)融合結(jié)構(gòu)(Audio-Vision Aggregator, AVA)。該模塊通過(guò)動(dòng)態(tài)融合高分辨率視覺(jué)與音頻特征,確??缒B(tài)對(duì)齊效果。通過(guò)多階段訓(xùn)練策略,逐步從 T2A 過(guò)渡到 V2A,并采用不同數(shù)據(jù)配比訓(xùn)練,使模型具備從文本、視頻或二者結(jié)合生成高質(zhì)量音效的能力。
同時(shí),團(tuán)隊(duì)設(shè)計(jì)了多模態(tài)視頻 - 音頻鏈?zhǔn)剿季S結(jié)構(gòu)(Multi-modal CoT),結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)對(duì)少樣本情況下音效生成的精細(xì)控制,可廣泛適用于短視頻、動(dòng)漫及游戲等配音場(chǎng)景。
團(tuán)隊(duì)精心構(gòu)建了符合行業(yè)標(biāo)準(zhǔn)的 V2A(video-to-audio)數(shù)據(jù)集,覆蓋了電影、游戲、廣告等多場(chǎng)景、多時(shí)長(zhǎng)的音視頻內(nèi)容。為確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還設(shè)計(jì)了一套完善的數(shù)據(jù)處理流程,涵蓋數(shù)據(jù)收集、標(biāo)注、過(guò)濾和剪輯。針對(duì)不同視頻類(lèi)型的復(fù)雜性與差異性,團(tuán)隊(duì)基于多模態(tài)大語(yǔ)言模型(MLLMs)及人工標(biāo)注,完成時(shí)間戳和聲音事件的高質(zhì)量標(biāo)注。同時(shí),通過(guò)嚴(yán)格篩選,過(guò)濾掉背景音樂(lè)干擾及音視頻不同步的內(nèi)容,最終生成符合行業(yè)標(biāo)準(zhǔn)要求的訓(xùn)練數(shù)據(jù),為后續(xù)研究與開(kāi)發(fā)提供了堅(jiān)實(shí)基礎(chǔ)。
通過(guò)客觀指標(biāo)測(cè)評(píng)可以看出,YingSound 大模型在整體效果、時(shí)間對(duì)齊和視頻語(yǔ)義理解等客觀測(cè)評(píng)上均達(dá)到業(yè)界領(lǐng)先水平。
長(zhǎng)期來(lái)看,視頻生成技術(shù)因其展現(xiàn)出的取代游戲引擎的潛力,勢(shì)必會(huì)對(duì)游戲行業(yè)帶來(lái)顛覆式創(chuàng)新。
通過(guò)文字描述就能創(chuàng)作一個(gè)游戲,不再是異想天開(kāi)。這個(gè)領(lǐng)域的發(fā)展速度之快超乎想象,AI 將帶來(lái)游戲創(chuàng)作平權(quán),未來(lái)游戲創(chuàng)作的唯一限制可能只是創(chuàng)作者們的想象力。
今年年初,史玉柱談到巨人網(wǎng)絡(luò)在探索打造一個(gè) AI 游戲孵化平臺(tái),降低做游戲的門(mén)檻,讓普通人也能做游戲。這不,年底就交了第一份 " 作業(yè) ",期待他們?cè)?AI 游戲賽道的下一步規(guī)劃。
(責(zé)任編輯:娛樂(lè))
- ·維克托:充分利用機(jī)會(huì)不管是1分鐘還是90分鐘,從萊萬(wàn)那學(xué)到很多
- ·[流言板]維持懸念!厄爾底角長(zhǎng)兩分命中落后勇士3分,比賽還剩20秒
- ·國(guó)足客場(chǎng)擊敗巴林后,西安一高校男生寢室半夜狂歡慶祝
- ·特里為什么如此尊重別德林斯
- ·[流言板]恐怖防守!文班正面大帽阿夫迪亞上籃,本場(chǎng)送出10次封蓋
- ·APP每日簽到必得免費(fèi)游戲!全新攻略板塊上線
- ·[流言板]2000年至今賽季前15場(chǎng)送出50+助攻的馬刺新秀:帕克和卡斯?fàn)?/a>
- ·足球報(bào):18強(qiáng)賽過(guò)半印尼恐提前掉隊(duì),大量歸化并未打出相匹表現(xiàn)
- ·[流言板]沒(méi)那么簡(jiǎn)單!CJ一條龍壓哨上籃,阿門(mén)緊緊跟住將球帽掉
- ·南美世預(yù)賽積分:阿根廷居首,烏拉圭哥倫比亞分列二三,巴西第四
- ·新版《超人》電影首曝海報(bào) 首支預(yù)告本周四發(fā)布
- ·連媒:國(guó)足實(shí)力并沒(méi)有取得質(zhì)的提高,缺乏追求更好成績(jī)的基礎(chǔ)
- ·貝爾薩帶隊(duì)南美世預(yù)賽取勝32場(chǎng),所有主帥中最多
- ·PlayStation連續(xù)十年獲得TGA年度游戲提名 Xbox一直是零
- ·心里苦??拜仁德國(guó)杯止步16強(qiáng),凱恩退出本賽季第一項(xiàng)冠軍爭(zhēng)奪
- ·[流言板]威少200次三雙!斯特勞瑟:我都不知道自己能不能打200場(chǎng)
- ·范曉冬盛贊胡荷韜:換我20出頭時(shí)臨危受命踢這種大賽,肯定拉褲兜
- ·安布:托納利比賽中拼盡了全力 現(xiàn)在意大利打法明確踢誰(shuí)都不自卑
- ·T1回旋鏢啦,自食惡果
- ·營(yíng)收大降 你開(kāi)愛(ài)奇藝會(huì)員嗎?不能跳廣告/投屏被吐槽坑