聲網(wǎng)劉斌：RTE 演進助力 AI Agent 應(yīng)用落地

時間：2024-12-23 01:45:24 來源：網(wǎng)絡(luò)整理編輯：休閑

核心提示

12月11日,聲網(wǎng) COO 劉斌出席由量子位舉辦的 MEET2025智能未來大會,并帶來了主題演講,他分享了在實時多模態(tài)的趨勢下,RTE 的演進如何助力 AI Agent 應(yīng)用落地,并認為 RTE 將

12月11日,聲網(wǎng)聲網(wǎng) COO 劉斌出席由量子位舉辦的 MEET2025智能未來大會,并帶來了主題演講,他分享了在實時多模態(tài)的趨勢下,RTE 的演進如何助力 AI Agent 應(yīng)用落地,并認為 RTE 將成為生成式 AI 時代 AI 基礎(chǔ)設(shè)施的關(guān)鍵部分。

在 GenAI 時代,劉斌力A落地RTE 與 AI Agent 有什么關(guān)系?劉斌首先分享了兩個事件,其一,今年10月初,聲網(wǎng)的兄弟公司 Agora 作為語音 API 合作者出現(xiàn)在了 OpenAI 發(fā)布的 Realtime API 公開測試版中。其二,演應(yīng)用10月底的 RTE2024實時互聯(lián)網(wǎng)大會中,聲網(wǎng)也宣布與 MiniMax 正在打磨國內(nèi)首個 Realtime API。通過這兩個事件反映出當(dāng)下大模型的進助交互正在走向?qū)崟r多模態(tài)。

實時音視頻成為對話式 AI Agent 的聲網(wǎng)關(guān)鍵一環(huán)

劉斌認為,在多模態(tài)模型推出后,對話的方式與原來純文本交互不同,會從異步變?yōu)閷崟r雙工交互,實現(xiàn)了很大的飛躍。但在最終應(yīng)用落地的劉斌力A落地過程中,依然存在很多客戶痛點,比如在實際應(yīng)用場景中,用戶的設(shè)備通常無法像發(fā)布會演示的那樣一直處于固定網(wǎng)絡(luò)與物理環(huán)境下,大部分Conversational AI Agent 的使用場景是隨機的,也就是可能會發(fā)在 Anytime Anywhere,比如在開車送完孩子上學(xué)之后,這就對大模型實時語音對話中的低延時傳輸、網(wǎng)絡(luò)優(yōu)化等提出了考驗。演應(yīng)用一般來說,進助延遲在 1.7 秒內(nèi)會讓人感覺自然,2 秒多、 3 秒則會讓人覺得卡頓、聲網(wǎng)反應(yīng)慢。劉斌力A落地

其次在模型交互中能否支持智能打斷以及主動交互也是演應(yīng)用用戶非常關(guān)注的一個關(guān)鍵點。要做到這些,進助除了模型能力,在應(yīng)用落地方面,需要端到端的能力支持,不僅需要成熟的 VAD 技術(shù)來實現(xiàn)自由打斷,更需要一整套的音頻高級算法來支撐實現(xiàn)優(yōu)雅打斷,從而實現(xiàn)用戶體驗最好的人模對話,當(dāng)然也需要應(yīng)對不同的物理環(huán)境、復(fù)雜的聲網(wǎng)網(wǎng)絡(luò)環(huán)境、PC、劉斌力A落地手機以及各類 IoT 終端等。演應(yīng)用

聲網(wǎng)作為全球?qū)崟r互動云行業(yè)的開創(chuàng)者,在音視頻領(lǐng)域積累了深厚的技術(shù)優(yōu)勢與場景實踐,通過將 RTE 與 GenAI 結(jié)合,推出了聲網(wǎng) Conversational AI Agents ,旨在幫助開發(fā)者與企業(yè)解決 Agent 應(yīng)用落地的一系列痛點,快速構(gòu)建適配自己業(yè)務(wù)場景的 AI 實時語音對話服務(wù)。

語音對話延遲低至500ms:針對大模型語音交互中普遍存在響應(yīng)時間長的痛點,聲網(wǎng)自研的 SD-RTN? 實時傳輸網(wǎng)絡(luò)可以實現(xiàn)全球范圍的低延時音視頻傳輸,目前可做到語音對話延遲低至 500ms,并進一步通過更快速的 LLM 推理首字耗時、低延遲流式 TTS、同機部署等一系列技術(shù)手段,保證對話的實時性與流暢性,達到近似人與人之間日常對話停頓與間隔。

支持智能打斷:開發(fā)者在構(gòu)建 AI 應(yīng)用場景時,會將能否支持隨時打斷也成為衡量大模型智能化的重要指標。聲網(wǎng)自研的 AI VAD 技術(shù),適應(yīng)人類對話的停頓、語氣和對話節(jié)奏,支持 AI 對話過程中隨時打斷。同時,聲網(wǎng)的解決方案還深度優(yōu)化 AI 角色,最大程度保留情緒情感等關(guān)鍵信息,超擬人真實音色豐富通話體驗。

支持30000+移動終端:在大模型的應(yīng)用落地中,不同的終端設(shè)備、操作系統(tǒng)等也會帶來不一樣的體驗,聲網(wǎng)的音視頻 SDK 經(jīng)過不斷的迭代升級,可以支持 30 多個平臺框架、30000 多終端機型及各種操作系統(tǒng),包括各類 IoT 設(shè)備終端;

領(lǐng)先的音頻處理:在人與人音視頻通話的過程中,環(huán)境噪音是經(jīng)常遭遇的一大痛點,影響溝通效率。在 GenAI 場景中,環(huán)境噪音同樣無法避免。聲網(wǎng)具備業(yè)界領(lǐng)先的音頻3A能力,提供 AI 回聲消除、AI 智能降噪、背景人聲過濾、音樂檢測/過濾、主講人聲紋鎖定等自研音頻技術(shù),即使在商場、地鐵站等嘈雜環(huán)境中,也能保證 AI 對話過程不受影響。

靈活可擴展的 AI Agent 架構(gòu):開發(fā)者在構(gòu)建 AI 應(yīng)用時,往往會根據(jù)自身的喜好或者業(yè)務(wù)場景選擇不同的組件搭配 AI Agent。對此,聲網(wǎng)的解決方案采用了靈活可擴展的 AI Agent架構(gòu),兼容市場主流的 ASR、LLM 和 TTS 技術(shù),并具備工作流編排能力,幫助開發(fā)者與企業(yè)根據(jù)特定需求定制和擴展 AI 驅(qū)動的實時互動體驗。

RTE 成為 GenAI 時代 AI Infra 的關(guān)鍵部分

在與大模型廠商合作的過程中,聲網(wǎng)也發(fā)現(xiàn)想要提升大模型落地的實用性,現(xiàn)有 RTE 技術(shù)棧和基礎(chǔ)設(shè)施仍有大量改進空間。劉斌表示,只有通過不斷的演進,大模型才有機會在各種場景、形態(tài)下大規(guī)模參與到和人的語音對話中,大模型也將基于云、設(shè)備端、邊緣的多維度參與與協(xié)作?；谶@些能力的改進和普及,未來 RTE 將成為 GenAI 時代 AI 基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵部分。

同時,Gen AI 也在驅(qū)動 RTE 實時互動的技術(shù)變革與體驗革新,在人與人的實時互動中,聲網(wǎng)一直致力于實現(xiàn)從 QoS 服務(wù)質(zhì)量到 QoE 體驗質(zhì)量的技術(shù)變革,在體驗層面也從“聽得到“變?yōu)?ldquo;聽得清”。而在人與 AI 的實時互動中,為了進一步增強體驗,RTE 的技術(shù)變革也演變?yōu)?AI QoE 甚至多模態(tài) AI QoE,這背后就包含了聲網(wǎng)自研的 AI VAD 能力、降噪能力及網(wǎng)絡(luò)優(yōu)化等一系列技術(shù)能力,以使得人與 AI 的對話更符合實際情況,大模型也從理解內(nèi)容,變成理解對話人的心理、情緒,最終理解對話時的人類意圖,最后實現(xiàn)從“聽得懂“到“聽「得心」”的體驗革新。

在 GenAI 時代,聲網(wǎng)的產(chǎn)品體系也在不斷加強,劉斌也進一步介紹了聲網(wǎng)的 AI RTE 產(chǎn)品矩陣,包括 Linux Sever SDK、AI VAD 能力、AI Agent Service 等都在做補充與優(yōu)化。

最后劉斌還介紹了聲網(wǎng) RTE + AI 能力全景圖,包括 RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、Conversational AI Agents 解決方案等,全面的展現(xiàn)了聲網(wǎng)對 RTE+AI 的整體思考,致力于成為 GenAI 時代 AI 基礎(chǔ)設(shè)施的關(guān)鍵部分。

上一篇：百度回應(yīng)進軍短?。寒?dāng)前內(nèi)容生態(tài)重點發(fā)展方向

下一篇：亞伯拉罕：我和萊奧的默契與日俱增，我還沒有達到最佳狀態(tài)

黄色网站va,欧美一区综合,91九色成人,亚洲午夜视频,综合激情久久,伊人成网站222综合网,三级在线观看视频

聲網(wǎng)劉斌：RTE 演進助力 AI Agent 應(yīng)用落地

推薦

黄色网站va,欧美一区综合,91九色成人,亚洲午夜视频,综合激情久久,伊人成网站222综合网,三级在线观看视频

聲網(wǎng)劉斌：RTE 演進助力 AI Agent 應(yīng)用落地

推薦

熱門