近日,阿里阿里云百煉上線了全新音視頻實(shí)時(shí)互動(dòng)功能,云百用用戶(hù)可在百煉上自由選擇文本、煉上語(yǔ)音和視覺(jué)理解等200多款模型,線音無(wú)需代碼,視頻實(shí)數(shù)分鐘即可搭建一個(gè)能聽(tīng)、互動(dòng)能看、人人會(huì)說(shuō)的都能多模專(zhuān)屬AI助手。阿里云百煉還支持以sdk的創(chuàng)建形式集成到Web、ioS和安卓應(yīng)用,專(zhuān)屬可應(yīng)用于AI虛擬助手、阿里虛擬陪伴和AI老師等場(chǎng)景。云百用 用戶(hù)在百煉上幾分鐘即可搭建一個(gè)能聽(tīng)、煉上能看、線音會(huì)說(shuō)的視頻實(shí)專(zhuān)屬AI助手 過(guò)去一年,大模型正在從純文本模態(tài)向語(yǔ)音和視覺(jué)等多模態(tài)演進(jìn),極大地拓寬了大模型應(yīng)用的想象空間。然而現(xiàn)有單一模型仍舊無(wú)法處理復(fù)雜的任務(wù),為了進(jìn)一步加速單一大模型構(gòu)建成像人一樣自然交互的復(fù)雜AI應(yīng)用,阿里云百煉提供了200多款語(yǔ)言模型Qwen、視覺(jué)語(yǔ)言模型Qwen2-VL、語(yǔ)音合成模型CosyVoice等全模態(tài)全尺寸大模型,同時(shí)聯(lián)合阿里云AI實(shí)時(shí)互動(dòng)方案,在國(guó)內(nèi)率先為用戶(hù)提供了便捷的工作流應(yīng)用和智能體編排應(yīng)用,例如支持構(gòu)建RAG知識(shí)庫(kù)、Prompt調(diào)優(yōu)、sdk集成等。 據(jù)介紹,在視覺(jué)理解模型方面,阿里云Qwen2-VL具備強(qiáng)大的視覺(jué)智能體能力,例如采用多模態(tài)旋轉(zhuǎn)位置嵌入(M-ROPE)方法,能夠同時(shí)捕捉和整合一維文本序列、二維視覺(jué)圖像以及三維視頻的位置信息,模型具備更好地理解和建模復(fù)雜的多模態(tài)數(shù)據(jù),該模型一經(jīng)推出就成為開(kāi)源社區(qū)最受歡迎的多模態(tài)大模型;在音頻方面,阿里云語(yǔ)音合成模型CosyVoice,通過(guò)對(duì)生成語(yǔ)音的情感、韻律進(jìn)行細(xì)粒度的控制,情感表現(xiàn)力上得到明顯提升,阿里云AI實(shí)時(shí)互動(dòng)方案還可提供化智能降噪、智能打斷、智能斷句等超擬人對(duì)話(huà)能力。 以搭建一個(gè)視覺(jué)能力的AI應(yīng)用為例,用戶(hù)進(jìn)入百煉應(yīng)用控制臺(tái)后,僅需上傳圖片知識(shí)庫(kù)、編寫(xiě)提示詞、設(shè)置音頻、調(diào)優(yōu)這四步,數(shù)分鐘內(nèi)就能創(chuàng)建一個(gè)能完成專(zhuān)屬視頻交互的AI應(yīng)用,基于Qwen-VL強(qiáng)大的視覺(jué)推理能力,它不僅能識(shí)別物體的種類(lèi),還能準(zhǔn)確描述物體的風(fēng)格、特點(diǎn)、位置以及物體上的文字等關(guān)鍵信息。此外搭建好的應(yīng)用還支持以音視頻sdk集成到用戶(hù)的Web、ioS或者安卓應(yīng)用中,幫助企業(yè)快速實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新。 據(jù)介紹,阿里云百煉上的通義API每百萬(wàn)tokens價(jià)格已降至0.3元,一汽、金山、哈啰集團(tuán)、國(guó)家天文臺(tái)等超30萬(wàn)企業(yè)和機(jī)構(gòu)在使用阿里云百煉。 |