黄色网站va,欧美一区综合,91九色成人,亚洲午夜视频,综合激情久久,伊人成网站222综合网,三级在线观看视频

<progress id="biqxl"><source id="biqxl"><s id="biqxl"></s></source></progress>

<samp id="biqxl"><listing id="biqxl"><var id="biqxl"></var></listing></samp>

會(huì)員登錄 - 用戶(hù)注冊(cè) - 設(shè)為首頁(yè) - 加入收藏 - 網(wǎng)站地圖國(guó)產(chǎn)全AI游戲來(lái)了一段文字、一張圖就能生成模擬開(kāi)放世界游戲視頻！

主頁(yè) 綜合探索時(shí)尚熱點(diǎn) 焦點(diǎn) 知識(shí) 娛樂(lè) 百科

熱門(mén)搜索：

當(dāng)前位置：首頁(yè) > 娛樂(lè) > 國(guó)產(chǎn)全AI游戲來(lái)了一段文字、一張圖就能生成模擬開(kāi)放世界游戲視頻正文

國(guó)產(chǎn)全AI游戲來(lái)了一段文字、一張圖就能生成模擬開(kāi)放世界游戲視頻

時(shí)間：2024-12-23 03:03:18 來(lái)源：下愚不移網(wǎng) 作者：休閑閱讀：142次

距離普通人憑想法就能做出游戲的國(guó)產(chǎn)時(shí)代，又近了一步。戲段戲視

AI 游戲生成天花板今年以來(lái)不斷突破，文字就在昨天，張圖國(guó)產(chǎn)游戲 AI 團(tuán)隊(duì)也加入卷出了新高度。生擬開(kāi)

國(guó)產(chǎn)全AI游戲來(lái)了一段文字、一張圖就能生成模擬開(kāi)放世界游戲視頻

巨人網(wǎng)絡(luò)發(fā)布了 " 千影 QianYing" 有聲游戲生成大模型，成模其中包括游戲視頻生成大模型 YingGame、放世視頻配音大模型 YingSound。界游

先來(lái)感受一段 1 分 26 秒的國(guó)產(chǎn)生成樣片：

用一段文字、一張圖，戲段戲視就能生成模擬開(kāi)放世界游戲的文字視頻，并且有聲、張圖可交互，生擬開(kāi)可操控角色的成模多種動(dòng)作。

面向開(kāi)放世界游戲，放世無(wú)需游戲引擎

概括來(lái)說(shuō)，YingGame 是一個(gè)面向開(kāi)放世界游戲的視頻生成大模型，研究團(tuán)隊(duì)來(lái)自巨人網(wǎng)絡(luò) AI Lab、清華大學(xué) SATLab，首次實(shí)現(xiàn)角色多樣動(dòng)作的交互控制、自定義游戲角色，同時(shí)具備更好的游戲物理仿真特性。

精確的物理規(guī)律仿真

從生成的視頻中看，無(wú)論是汽車(chē)碰撞、火焰燃燒這類(lèi)大場(chǎng)面，還是水中慢走、障礙物自動(dòng)繞行這種人物行進(jìn)，都表現(xiàn)出了出色的遵循物理規(guī)律能力。

多樣動(dòng)作控制

交互對(duì)游戲至關(guān)重要，YingGame 能夠理解用戶(hù)的輸入交互，包括文本、圖像或鼠標(biāo)、鍵盤(pán)按鍵等操作信號(hào)，從而讓用戶(hù)能夠操控游戲角色的多樣動(dòng)作。

視頻中展示了角色在開(kāi)槍、變身、施法、使用道具、攀爬、匍匐、跑跳等肢體動(dòng)作的交互，相比同類(lèi)模型更加豐富、絲滑。

角色個(gè)性化與精細(xì)主體控制

YingGame 還支持輸入一張角色圖片，實(shí)現(xiàn)角色自定義生成，同時(shí)對(duì)角色主體實(shí)現(xiàn)精細(xì)化控制，從過(guò)去的 AI 捏臉跨越到現(xiàn)在的 AI 捏人。

第一人稱(chēng)視角

此外，還看到模型生成的第一人稱(chēng)視角的游戲畫(huà)面，不得不說(shuō)，這個(gè)視角有很足的游戲沉浸感。

怎么實(shí)現(xiàn)的？

從技術(shù)上看，YingGame 通過(guò)融合跨模態(tài)特征、細(xì)粒度角色表征、運(yùn)動(dòng)增強(qiáng)與多階段訓(xùn)練策略，以及所構(gòu)建的高效、高質(zhì)量游戲視頻訓(xùn)練數(shù)據(jù)生產(chǎn)管線，使得生成內(nèi)容具備可交互能力的多樣動(dòng)作控制、角色自定義與精細(xì)主體控制、復(fù)雜運(yùn)動(dòng)與動(dòng)作連續(xù)性等特性。

在交互性實(shí)現(xiàn)上，YingGame 結(jié)合了多個(gè) Interactive Network 模塊：理解用戶(hù)輸入的多模態(tài)交互方式，實(shí)現(xiàn)多樣動(dòng)作控制的多模態(tài)交互網(wǎng)絡(luò) — MMIN ( Multi-Modal Interactive Network ) ；實(shí)現(xiàn)復(fù)雜與連續(xù)角色動(dòng)作生成的動(dòng)作網(wǎng)絡(luò) — IMN ( Interactive Motion Network ) ；自定義角色生成與提高角色生成質(zhì)量的角色網(wǎng)絡(luò) — ICN ( Interactive Character Network ) 。

此外，為實(shí)現(xiàn)高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建，巨人 AI 團(tuán)隊(duì)設(shè)計(jì)了一條高效的游戲視頻數(shù)據(jù)處理管線：

基于場(chǎng)景與高光產(chǎn)出高質(zhì)量視頻片段，其中對(duì)高光視頻片段進(jìn)行音頻信息提取，作為 V2A 訓(xùn)練集；

基于運(yùn)動(dòng)得分、美學(xué)評(píng)分等進(jìn)行視頻過(guò)濾；

vLLM-based video caption 流程，并對(duì)結(jié)果進(jìn)行 clip score 文本視頻對(duì)齊評(píng)分過(guò)濾；

多任務(wù)數(shù)據(jù)處理，如分割、主體檢測(cè)、姿勢(shì)估計(jì)、深度估計(jì)、相機(jī)運(yùn)動(dòng)估計(jì)等。

讓 AI 游戲進(jìn)入有聲時(shí)代

除了 YingGame 之外，巨人還發(fā)布了針對(duì)視頻配音場(chǎng)景的多模態(tài)音效生成大模型 YingSound。

這是在此之前 AI 游戲生成領(lǐng)域沒(méi)有實(shí)現(xiàn)的，而 " 聲音 " 是游戲的基本要素。

YingSound 由巨人網(wǎng)絡(luò) AI Lab、西工大 ASLP Lab 和浙江大學(xué)等聯(lián)合研發(fā)，它最重要的技能是：給無(wú)聲視頻配音效，實(shí)現(xiàn)音畫(huà)同步。

直接聽(tīng)聽(tīng) YingSound 生成的效果：

YingSound 有超強(qiáng)的時(shí)間對(duì)齊和視頻語(yǔ)義理解能力，支持多種類(lèi)型的高精細(xì)度音效生成，并且具備多樣化應(yīng)用場(chǎng)景泛化能力，包括游戲視頻、動(dòng)漫視頻、真實(shí)世界視頻、AI 生成視頻等。

理解各種視頻畫(huà)面能力一絕

來(lái)一段游戲的配音示例，通過(guò)演示視頻可以清晰看到，這個(gè)模型能夠精確地生成與場(chǎng)景高度匹配的音效，包括開(kāi)鏡、炮轟、射擊等聲音，完美還原坦克進(jìn)攻與士兵防守射擊的聲音，創(chuàng)造了沉浸式的游戲體驗(yàn)。

△視頻源自《戰(zhàn)地游戲》錄屏

在動(dòng)漫場(chǎng)景中，模型展示了對(duì)復(fù)雜劇情的理解能力。例如，在一段鳥(niǎo)兒互相扔蛋的動(dòng)畫(huà)中，模型生成了從驚訝到扔蛋、蛋飛行軌跡、接住蛋等一系列卡點(diǎn)且高度符合視頻內(nèi)容的音效。

△視頻源自動(dòng)畫(huà)《Boom》片段

再來(lái)看看以下小球快速移動(dòng)的畫(huà)面，模型生成的聲音能夠精準(zhǔn)匹配畫(huà)面的動(dòng)態(tài)變化，并針對(duì)小球不同狀態(tài)生成相應(yīng)的場(chǎng)景音效，充分展現(xiàn)了其對(duì)動(dòng)畫(huà)內(nèi)容的深度理解。

△視頻源自 3D 動(dòng)畫(huà)短片《The Marble》片段

在真實(shí)世界場(chǎng)景中，通過(guò)一段激烈的乒乓球?qū)?zhàn)視頻，模型能夠精準(zhǔn)地生成每次擊球所產(chǎn)生的音效，甚至還生成了球員跑動(dòng)時(shí)鞋底與地面摩擦的聲音，這充分展現(xiàn) YingSound 對(duì)視頻整體語(yǔ)義的深刻理解和出色的音效生成能力。

△視頻源自乒乓球比賽測(cè)評(píng)結(jié)果領(lǐng)先

研究團(tuán)隊(duì)公開(kāi)了 YingSound 的兩個(gè)核心模塊：基于 DiT 的 Flow-Matching 構(gòu)建的音效生成模塊，以及多模態(tài)思維鏈（Multi-modal CoT）控制模塊，為音效生成提供精準(zhǔn)支持。

在音效生成模塊中，團(tuán)隊(duì)基于 DiT 的 Flow-Matching 框架，提出了創(chuàng)新的音頻 - 視覺(jué)融合結(jié)構(gòu)（Audio-Vision Aggregator, AVA）。該模塊通過(guò)動(dòng)態(tài)融合高分辨率視覺(jué)與音頻特征，確?？缒B(tài)對(duì)齊效果。通過(guò)多階段訓(xùn)練策略，逐步從 T2A 過(guò)渡到 V2A，并采用不同數(shù)據(jù)配比訓(xùn)練，使模型具備從文本、視頻或二者結(jié)合生成高質(zhì)量音效的能力。

同時(shí)，團(tuán)隊(duì)設(shè)計(jì)了多模態(tài)視頻 - 音頻鏈?zhǔn)剿季S結(jié)構(gòu)（Multi-modal CoT），結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)對(duì)少樣本情況下音效生成的精細(xì)控制，可廣泛適用于短視頻、動(dòng)漫及游戲等配音場(chǎng)景。

團(tuán)隊(duì)精心構(gòu)建了符合行業(yè)標(biāo)準(zhǔn)的 V2A（video-to-audio）數(shù)據(jù)集，覆蓋了電影、游戲、廣告等多場(chǎng)景、多時(shí)長(zhǎng)的音視頻內(nèi)容。為確保數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)還設(shè)計(jì)了一套完善的數(shù)據(jù)處理流程，涵蓋數(shù)據(jù)收集、標(biāo)注、過(guò)濾和剪輯。針對(duì)不同視頻類(lèi)型的復(fù)雜性與差異性，團(tuán)隊(duì)基于多模態(tài)大語(yǔ)言模型（MLLMs）及人工標(biāo)注，完成時(shí)間戳和聲音事件的高質(zhì)量標(biāo)注。同時(shí)，通過(guò)嚴(yán)格篩選，過(guò)濾掉背景音樂(lè)干擾及音視頻不同步的內(nèi)容，最終生成符合行業(yè)標(biāo)準(zhǔn)要求的訓(xùn)練數(shù)據(jù)，為后續(xù)研究與開(kāi)發(fā)提供了堅(jiān)實(shí)基礎(chǔ)。

通過(guò)客觀指標(biāo)測(cè)評(píng)可以看出，YingSound 大模型在整體效果、時(shí)間對(duì)齊和視頻語(yǔ)義理解等客觀測(cè)評(píng)上均達(dá)到業(yè)界領(lǐng)先水平。

長(zhǎng)期來(lái)看，視頻生成技術(shù)因其展現(xiàn)出的取代游戲引擎的潛力，勢(shì)必會(huì)對(duì)游戲行業(yè)帶來(lái)顛覆式創(chuàng)新。

通過(guò)文字描述就能創(chuàng)作一個(gè)游戲，不再是異想天開(kāi)。這個(gè)領(lǐng)域的發(fā)展速度之快超乎想象，AI 將帶來(lái)游戲創(chuàng)作平權(quán)，未來(lái)游戲創(chuàng)作的唯一限制可能只是創(chuàng)作者們的想象力。

今年年初，史玉柱談到巨人網(wǎng)絡(luò)在探索打造一個(gè) AI 游戲孵化平臺(tái)，降低做游戲的門(mén)檻，讓普通人也能做游戲。這不，年底就交了第一份 " 作業(yè) "，期待他們?cè)?AI 游戲賽道的下一步規(guī)劃。

(責(zé)任編輯：娛樂(lè))

上一篇：青海西寧拉開(kāi)冬春季冰雪運(yùn)動(dòng)賽事開(kāi)端大眾冰雪運(yùn)動(dòng)“升溫”
下一篇：施魏因施泰格談諾伊爾紅牌：他稍微慢了點(diǎn)，拜仁后衛(wèi)站得太靠前了

相關(guān)內(nèi)容

最新內(nèi)容

推薦內(nèi)容

熱點(diǎn)內(nèi)容

-- 友情鏈接 --