黄色网站va,欧美一区综合,91九色成人,亚洲午夜视频,综合激情久久,伊人成网站222综合网,三级在线观看视频

會(huì)員登錄 - 用戶(hù)注冊(cè) - 設(shè)為首頁(yè) - 加入收藏 - 網(wǎng)站地圖 國(guó)產(chǎn)全AI游戲來(lái)了 一段文字、一張圖 就能生成模擬開(kāi)放世界游戲視頻!

國(guó)產(chǎn)全AI游戲來(lái)了 一段文字、一張圖 就能生成模擬開(kāi)放世界游戲視頻

時(shí)間:2024-12-23 03:03:18 來(lái)源:下愚不移網(wǎng) 作者:休閑 閱讀:142次

距離普通人憑想法就能做出游戲的國(guó)產(chǎn)時(shí)代,又近了一步。戲段戲視

AI 游戲生成天花板今年以來(lái)不斷突破,文字就在昨天,張圖國(guó)產(chǎn)游戲 AI 團(tuán)隊(duì)也加入卷出了新高度。生擬開(kāi)

國(guó)產(chǎn)全AI游戲來(lái)了 一段文字、一張圖 就能生成模擬開(kāi)放世界游戲視頻

巨人網(wǎng)絡(luò)發(fā)布了 " 千影 QianYing" 有聲游戲生成大模型,成模其中包括游戲視頻生成大模型 YingGame、放世視頻配音大模型 YingSound。界游

先來(lái)感受一段 1 分 26 秒的國(guó)產(chǎn)生成樣片:

用一段文字、一張圖,戲段戲視就能生成模擬開(kāi)放世界游戲的文字視頻,并且有聲、張圖可交互,生擬開(kāi)可操控角色的成模多種動(dòng)作。

面向開(kāi)放世界游戲,放世無(wú)需游戲引擎

概括來(lái)說(shuō),YingGame 是一個(gè)面向開(kāi)放世界游戲的視頻生成大模型,研究團(tuán)隊(duì)來(lái)自巨人網(wǎng)絡(luò) AI   Lab、清華大學(xué) SATLab,首次實(shí)現(xiàn)角色多樣動(dòng)作的交互控制、自定義游戲角色,同時(shí)具備更好的游戲物理仿真特性。

精確的物理規(guī)律仿真

從生成的視頻中看,無(wú)論是汽車(chē)碰撞、火焰燃燒這類(lèi)大場(chǎng)面,還是水中慢走、障礙物自動(dòng)繞行這種人物行進(jìn),都表現(xiàn)出了出色的遵循物理規(guī)律能力。

多樣動(dòng)作控制

交互對(duì)游戲至關(guān)重要,YingGame 能夠理解用戶(hù)的輸入交互,包括文本、圖像或鼠標(biāo)、鍵盤(pán)按鍵等操作信號(hào),從而讓用戶(hù)能夠操控游戲角色的多樣動(dòng)作。

視頻中展示了角色在開(kāi)槍、變身、施法、使用道具、攀爬、匍匐、跑跳等肢體動(dòng)作的交互,相比同類(lèi)模型更加豐富、絲滑。

角色個(gè)性化與精細(xì)主體控制

YingGame 還支持輸入一張角色圖片,實(shí)現(xiàn)角色自定義生成,同時(shí)對(duì)角色主體實(shí)現(xiàn)精細(xì)化控制,從過(guò)去的 AI 捏臉跨越到現(xiàn)在的 AI 捏人。

第一人稱(chēng)視角

此外,還看到模型生成的第一人稱(chēng)視角的游戲畫(huà)面,不得不說(shuō),這個(gè)視角有很足的游戲沉浸感。

怎么實(shí)現(xiàn)的?

從技術(shù)上看,YingGame 通過(guò)融合跨模態(tài)特征、細(xì)粒度角色表征、運(yùn)動(dòng)增強(qiáng)與多階段訓(xùn)練策略,以及所構(gòu)建的高效、高質(zhì)量游戲視頻訓(xùn)練數(shù)據(jù)生產(chǎn)管線,使得生成內(nèi)容具備可交互能力的多樣動(dòng)作控制、角色自定義與精細(xì)主體控制、復(fù)雜運(yùn)動(dòng)與動(dòng)作連續(xù)性等特性。

在交互性實(shí)現(xiàn)上,YingGame 結(jié)合了多個(gè) Interactive Network 模塊:理解用戶(hù)輸入的多模態(tài)交互方式,實(shí)現(xiàn)多樣動(dòng)作控制的多模態(tài)交互網(wǎng)絡(luò) — MMIN ( Multi-Modal Interactive Network ) ;實(shí)現(xiàn)復(fù)雜與連續(xù)角色動(dòng)作生成的動(dòng)作網(wǎng)絡(luò) — IMN ( Interactive Motion Network ) ;自定義角色生成與提高角色生成質(zhì)量的角色網(wǎng)絡(luò) — ICN ( Interactive Character Network ) 。

此外,為實(shí)現(xiàn)高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建,巨人 AI 團(tuán)隊(duì)設(shè)計(jì)了一條高效的游戲視頻數(shù)據(jù)處理管線:

基于場(chǎng)景與高光產(chǎn)出高質(zhì)量視頻片段,其中對(duì)高光視頻片段進(jìn)行音頻信息提取,作為 V2A 訓(xùn)練集;

基于運(yùn)動(dòng)得分、美學(xué)評(píng)分等進(jìn)行視頻過(guò)濾;

vLLM-based video caption 流程,并對(duì)結(jié)果進(jìn)行 clip score 文本視頻對(duì)齊評(píng)分過(guò)濾;

多任務(wù)數(shù)據(jù)處理,如分割、主體檢測(cè)、姿勢(shì)估計(jì)、深度估計(jì)、相機(jī)運(yùn)動(dòng)估計(jì)等。

讓 AI 游戲進(jìn)入有聲時(shí)代

除了 YingGame 之外,巨人還發(fā)布了針對(duì)視頻配音場(chǎng)景的多模態(tài)音效生成大模型 YingSound。

這是在此之前 AI 游戲生成領(lǐng)域沒(méi)有實(shí)現(xiàn)的,而 " 聲音 " 是游戲的基本要素。

YingSound 由巨人網(wǎng)絡(luò) AI Lab、西工大 ASLP Lab 和浙江大學(xué)等聯(lián)合研發(fā),它最重要的技能是:給無(wú)聲視頻配音效,實(shí)現(xiàn)音畫(huà)同步。

直接聽(tīng)聽(tīng) YingSound 生成的效果:

YingSound 有超強(qiáng)的時(shí)間對(duì)齊和視頻語(yǔ)義理解能力,支持多種類(lèi)型的高精細(xì)度音效生成,并且具備多樣化應(yīng)用場(chǎng)景泛化能力,包括游戲視頻、動(dòng)漫視頻、真實(shí)世界視頻、AI 生成視頻等。

理解各種視頻畫(huà)面能力一絕

來(lái)一段游戲的配音示例,通過(guò)演示視頻可以清晰看到,這個(gè)模型能夠精確地生成與場(chǎng)景高度匹配的音效,包括開(kāi)鏡、炮轟、射擊等聲音,完美還原坦克進(jìn)攻與士兵防守射擊的聲音,創(chuàng)造了沉浸式的游戲體驗(yàn)。

視頻源自 《戰(zhàn)地游戲》錄屏

在動(dòng)漫場(chǎng)景中,模型展示了對(duì)復(fù)雜劇情的理解能力。例如,在一段鳥(niǎo)兒互相扔蛋的動(dòng)畫(huà)中,模型生成了從驚訝到扔蛋、蛋飛行軌跡、接住蛋等一系列卡點(diǎn)且高度符合視頻內(nèi)容的音效。

視頻源自 動(dòng)畫(huà)《Boom》片段

再來(lái)看看以下小球快速移動(dòng)的畫(huà)面,模型生成的聲音能夠精準(zhǔn)匹配畫(huà)面的動(dòng)態(tài)變化,并針對(duì)小球不同狀態(tài)生成相應(yīng)的場(chǎng)景音效,充分展現(xiàn)了其對(duì)動(dòng)畫(huà)內(nèi)容的深度理解。

視頻源自 3D 動(dòng)畫(huà)短片《The Marble》片段

在真實(shí)世界場(chǎng)景中,通過(guò)一段激烈的乒乓球?qū)?zhàn)視頻,模型能夠精準(zhǔn)地生成每次擊球所產(chǎn)生的音效,甚至還生成了球員跑動(dòng)時(shí)鞋底與地面摩擦的聲音,這充分展現(xiàn) YingSound 對(duì)視頻整體語(yǔ)義的深刻理解和出色的音效生成能力。

視頻源自 乒乓球比賽測(cè)評(píng)結(jié)果領(lǐng)先

研究團(tuán)隊(duì)公開(kāi)了 YingSound 的兩個(gè)核心模塊:基于 DiT 的 Flow-Matching 構(gòu)建的音效生成模塊,以及多模態(tài)思維鏈(Multi-modal CoT)控制模塊,為音效生成提供精準(zhǔn)支持。

在音效生成模塊中,團(tuán)隊(duì)基于 DiT 的 Flow-Matching 框架,提出了創(chuàng)新的音頻 - 視覺(jué)融合結(jié)構(gòu)(Audio-Vision Aggregator, AVA)。該模塊通過(guò)動(dòng)態(tài)融合高分辨率視覺(jué)與音頻特征,確??缒B(tài)對(duì)齊效果。通過(guò)多階段訓(xùn)練策略,逐步從 T2A 過(guò)渡到 V2A,并采用不同數(shù)據(jù)配比訓(xùn)練,使模型具備從文本、視頻或二者結(jié)合生成高質(zhì)量音效的能力。

同時(shí),團(tuán)隊(duì)設(shè)計(jì)了多模態(tài)視頻 - 音頻鏈?zhǔn)剿季S結(jié)構(gòu)(Multi-modal CoT),結(jié)合強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)對(duì)少樣本情況下音效生成的精細(xì)控制,可廣泛適用于短視頻、動(dòng)漫及游戲等配音場(chǎng)景。

團(tuán)隊(duì)精心構(gòu)建了符合行業(yè)標(biāo)準(zhǔn)的 V2A(video-to-audio)數(shù)據(jù)集,覆蓋了電影、游戲、廣告等多場(chǎng)景、多時(shí)長(zhǎng)的音視頻內(nèi)容。為確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還設(shè)計(jì)了一套完善的數(shù)據(jù)處理流程,涵蓋數(shù)據(jù)收集、標(biāo)注、過(guò)濾和剪輯。針對(duì)不同視頻類(lèi)型的復(fù)雜性與差異性,團(tuán)隊(duì)基于多模態(tài)大語(yǔ)言模型(MLLMs)及人工標(biāo)注,完成時(shí)間戳和聲音事件的高質(zhì)量標(biāo)注。同時(shí),通過(guò)嚴(yán)格篩選,過(guò)濾掉背景音樂(lè)干擾及音視頻不同步的內(nèi)容,最終生成符合行業(yè)標(biāo)準(zhǔn)要求的訓(xùn)練數(shù)據(jù),為后續(xù)研究與開(kāi)發(fā)提供了堅(jiān)實(shí)基礎(chǔ)。

通過(guò)客觀指標(biāo)測(cè)評(píng)可以看出,YingSound 大模型在整體效果、時(shí)間對(duì)齊和視頻語(yǔ)義理解等客觀測(cè)評(píng)上均達(dá)到業(yè)界領(lǐng)先水平。

長(zhǎng)期來(lái)看,視頻生成技術(shù)因其展現(xiàn)出的取代游戲引擎的潛力,勢(shì)必會(huì)對(duì)游戲行業(yè)帶來(lái)顛覆式創(chuàng)新。

通過(guò)文字描述就能創(chuàng)作一個(gè)游戲,不再是異想天開(kāi)。這個(gè)領(lǐng)域的發(fā)展速度之快超乎想象,AI 將帶來(lái)游戲創(chuàng)作平權(quán),未來(lái)游戲創(chuàng)作的唯一限制可能只是創(chuàng)作者們的想象力。

今年年初,史玉柱談到巨人網(wǎng)絡(luò)在探索打造一個(gè) AI 游戲孵化平臺(tái),降低做游戲的門(mén)檻,讓普通人也能做游戲。這不,年底就交了第一份 " 作業(yè) ",期待他們?cè)?AI 游戲賽道的下一步規(guī)劃。

(責(zé)任編輯:娛樂(lè))

相關(guān)內(nèi)容
  • 小蜘蛛:教練組和隊(duì)友幫我很多,讓我一點(diǎn)點(diǎn)適應(yīng)馬競(jìng)找到最佳狀態(tài)
  • [流言板]回去緩緩!76人三節(jié)落后灰熊9分,恩比德節(jié)間直接走回更衣室
  • [流言板]船記:此前沒(méi)有球員對(duì)魔術(shù)搶到8個(gè)進(jìn)攻板,祖巴茨做到了
  • 第100分3秒!烏加特攻入南美世預(yù)賽歷史最晚進(jìn)球
  • [流言板]媒體人:新疆和山西打得太過(guò)激烈,兩隊(duì)球員估計(jì)要緩好幾天
  • 網(wǎng)紅“條紋哥”賬號(hào)被封:此前因凝視車(chē)模莫名走紅
  • [流言板]科爾:如果可以的話,我想帶上隊(duì)里所有的人去打常規(guī)賽
  • 英超歐冠雙線領(lǐng)跑,這位荷蘭光頭主帥不一般
推薦內(nèi)容
  • 早報(bào):凱恩丟首冠&拜仁0
  • 7成用戶(hù)不接受漲價(jià)沒(méi)用!國(guó)產(chǎn)手機(jī)漲價(jià)潮背后:一顆芯片漲超200元
  • 麥卡利斯特:不喜歡在足球以外領(lǐng)域曝光,現(xiàn)在目標(biāo)英超和歐冠冠軍
  • 《鳴潮》將于2025年1月2日與2.0版本同步登陸PS5
  • 《燕云十六聲》開(kāi)封區(qū)域變化大 體驗(yàn)所有內(nèi)容需上百小時(shí)
  • [流言板]塔特姆談絕殺:我下半場(chǎng)投丟太多了,必須得投進(jìn)一個(gè)