10月25日,聲網(wǎng)時(shí)代在 RTE2024 第十屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)主論壇上,聲網(wǎng)創(chuàng)始人兼 CEO 趙斌發(fā)表了《實(shí)時(shí)互動(dòng)十年:從 WebRTC 到生成式 AI 時(shí)代的 RTE 》主旨演講。 趙斌認(rèn)為,斌R部分生成式 AI 正在驅(qū)動(dòng) IT 行業(yè)發(fā)生大變革,這一趨勢主要體現(xiàn)在四個(gè)層面:終端、軟件、將成云以及人機(jī)界面。為生在這樣的成式時(shí)代背景下,生成式 AI 將會(huì)一如既往地助力 RTE 能力的進(jìn)化與普及,同時(shí)也將借助 RTE 能力以及 RTE 應(yīng)用的廣度與深度來實(shí)現(xiàn)自身進(jìn)化。 同時(shí),關(guān)鍵他也在分享中發(fā)布了聲網(wǎng) RTE+AI 能力全景圖。在全景圖中,聲網(wǎng)時(shí)代聲網(wǎng)從實(shí)時(shí) AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、斌R部分聲網(wǎng) AI Agent、將成實(shí)時(shí)多模態(tài)對話式 AI 解決方案、為生RTE+AI 應(yīng)用場景五個(gè)維度,成式清晰地呈現(xiàn)了當(dāng)前 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。趙斌表示,關(guān)鍵生成式 AI 與 RTE 結(jié)合帶來的場景創(chuàng)新,也將成為下一個(gè)十年的主題。 以下內(nèi)容基于趙斌演講全文整理: 感謝大家在金秋十月再次來到北京 RTE 大會(huì)的聲網(wǎng)時(shí)代現(xiàn)場,與各位嘉賓、講師一起探討 RTE 行業(yè)的斌R部分現(xiàn)狀和未來。尤其要感謝來參會(huì)的將成開發(fā)者、工程師、產(chǎn)品經(jīng)理、創(chuàng)業(yè)者,在過去十年中,是你們與我們共同參與并見證了 RTE 行業(yè)波瀾壯闊的成長歷程。 在過去的十年里,RTE 能力成為了顛覆眾多行業(yè)發(fā)展與成長的核心力量。在社交泛娛樂領(lǐng)域,涌現(xiàn)出了多家以實(shí)時(shí)音視頻技術(shù)為底層能力的企業(yè),它們開創(chuàng)了新的玩法、場景和商業(yè)服務(wù),其中有不少已成功上市,使得 RTE 能力逐步廣泛應(yīng)用并普及至全球市場。 在在線教育領(lǐng)域,以 RTE 能力為支撐的 “線上課堂” 不僅曾是中國互聯(lián)網(wǎng)創(chuàng)業(yè)圈的熱門關(guān)注點(diǎn),還為體制內(nèi)教育 “三個(gè)課堂” 這一全國性政策提供了支持,并且在疫情期間發(fā)揮了不可或缺的作用。 在 IoT 領(lǐng)域,也出現(xiàn)了許多依托 RTE 能力而實(shí)現(xiàn)的新產(chǎn)品,例如兒童手表。VR/AR 設(shè)備進(jìn)化中,RTE 也賦能了眾多高價(jià)值功能。 在企業(yè)服務(wù)領(lǐng)域,從金融業(yè)的雙錄面簽到產(chǎn)業(yè)遠(yuǎn)程巡檢巡查、生產(chǎn)現(xiàn)場指導(dǎo)協(xié)同,以及快遞站點(diǎn)和調(diào)度中心的實(shí)時(shí)協(xié)同等場景,各行業(yè)都在通過RTE能力深度改造經(jīng)營方式。 過去十年,大家熟知的互聯(lián)網(wǎng)風(fēng)口也有很多離不開RTE能力的賦能和參與。社交泛娛樂、在線教育等行業(yè)的創(chuàng)業(yè)風(fēng)口,電商直播對電商行業(yè)格局的改變等等,其中很多都和實(shí)時(shí)互動(dòng)能力的使用和進(jìn)化有不可分割的關(guān)系。如今,在大模型和生成式 AI 時(shí)代,也將伴隨 RTE 能力的輔助與賦能走向成熟和應(yīng)用。 生成式 AI 時(shí)代 IT 行業(yè)四大變革趨勢 過去一年,通過與大模型以及 IT 行業(yè)同行、合作伙伴進(jìn)行深入的探討與交流,我們逐漸厘清了生成式 AI 能力將會(huì)如何改造和影響未來十年甚至二十年 IT 行業(yè)進(jìn)化的途徑與方法,并總結(jié)出了四大趨勢,這些趨勢將會(huì)決定并影響整個(gè) IT 行業(yè)發(fā)展的進(jìn)程。 趨勢一:終端的進(jìn)化將以對大模型的能力支持為核心驅(qū)動(dòng)。在未來十到二十年,無論是 PC 還是智能手機(jī),必然會(huì)以如何更好地支持大模型能力在端上的應(yīng)用,以及推理能力的成熟和推理性能的提升為主要進(jìn)化軸線。 趨勢二:所有的軟件都可以且將會(huì)通過大模型重新實(shí)現(xiàn)。僅僅在現(xiàn)有軟件中運(yùn)用大模型能力進(jìn)行小改進(jìn)和補(bǔ)充是遠(yuǎn)遠(yuǎn)不夠的,而是要以大模型能力為核心,重新思考每個(gè)領(lǐng)域的軟件應(yīng)如何設(shè)計(jì)、如何實(shí)現(xiàn),以及最終會(huì)有怎樣的使用體驗(yàn)和效果。這便是從 “ Software with AI ” 到 “ AI Native Software ” 的根本轉(zhuǎn)變,也將改變行業(yè)的技術(shù)框架和技術(shù)能力進(jìn)化方式。 趨勢三:所有的云都需要具備對大模型的訓(xùn)練和推理能力。大模型出現(xiàn)后,對于云服務(wù)而言,在早期提出的三個(gè)基本能力之外,GPU 算力必然成為第四個(gè)關(guān)鍵能力。沒有這一能力,就很難成為一個(gè)真正意義上的大規(guī)模公有云服務(wù)。 趨勢四:人機(jī)界面從鍵盤、鼠標(biāo)、觸屏轉(zhuǎn)變?yōu)樽匀徽Z言對話界面(LUI)。自計(jì)算機(jī)出現(xiàn)的第一天起,人機(jī)界面就是一個(gè)持續(xù)進(jìn)化的話題。從窗口卡片,到鍵盤鼠標(biāo),以及當(dāng)下最主流的觸屏,都不如幾十年前科幻小說中就開始提出的自然語言人機(jī)對話界面更為易用、高效。多模態(tài)對話式智能體(Agent)的出現(xiàn),已經(jīng)滲透到 IoT 設(shè)備以及電腦、手機(jī)的各種軟件中,也將極快地改變這些設(shè)備中人機(jī)界面的使用體驗(yàn)。 以上四個(gè)趨勢定義了下個(gè)時(shí)代 IT 進(jìn)化的主題,也將成為 IT 進(jìn)化的核心驅(qū)動(dòng)力。在這樣的時(shí)代背景下,我們認(rèn)為生成式 AI 將會(huì)一如既往地助力 RTE 能力的進(jìn)化與普及,同時(shí)生成式 AI 也將借助 RTE 能力以及 RTE 應(yīng)用的廣度與深度來進(jìn)化自身。 我們對生成式 AI 的未來發(fā)展有兩個(gè)方向性的總結(jié): 其一,向多模態(tài)深度進(jìn)化。目前,文字所能提供的訓(xùn)練數(shù)據(jù)已基本被充分利用。語言作為聲音化的文字,所提供的信息和數(shù)據(jù)空間將會(huì)被放大很多倍。同時(shí),自然環(huán)境聲音和視覺數(shù)據(jù)的獲取與運(yùn)用,也將為大模型提供幾乎無限的數(shù)據(jù)空間,進(jìn)一步滿足大模型智能進(jìn)化的數(shù)據(jù)需求。 其二,多步推理。無論是思維鏈(CoT)還是多 Agent 協(xié)同的方式,都為依托推理引擎完成具有高智能、高復(fù)雜度的現(xiàn)實(shí)任務(wù)提供了清晰的機(jī)會(huì)。這必然會(huì)成為一個(gè)重要的發(fā)展方向,從而實(shí)現(xiàn)利用大模型完成許多人完成起來都頗具挑戰(zhàn)的任務(wù)。狹義的通用人工智能(AGI)有望在未來幾年內(nèi)通過多步推理的方式迅速變?yōu)楝F(xiàn)實(shí)。 回歸到生成式 AI 未來發(fā)展的兩大方向與 RTE 之間的關(guān)系。多模態(tài)大模型已逐步進(jìn)化到能夠提供高度擬人化的聽、說、看、寫能力。通過與多個(gè)行業(yè)伙伴的打磨和深度實(shí)驗(yàn),我們發(fā)現(xiàn)多模態(tài)對話體驗(yàn)存在兩個(gè)關(guān)鍵側(cè)面: 第一,是聲音體驗(yàn),包括延遲、語氣、情感、情緒、口音等,都是大模型參與人機(jī)對話時(shí)體驗(yàn)感知和評(píng)價(jià)的關(guān)鍵角度。 第二,人與 AI Agent 對話時(shí),最核心的互動(dòng)體驗(yàn)就是打斷。如果在對話過程中打斷體驗(yàn)不自然,出現(xiàn)搶話或者不知道如何順利開展下一段對話的情況,就會(huì)對多模態(tài)大模型的實(shí)用化產(chǎn)生嚴(yán)重影響和阻礙。為了解決這一問題,我們發(fā)現(xiàn)現(xiàn)有 RTC 技術(shù)棧和基礎(chǔ)設(shè)施有大量改進(jìn)空間。只有通過改進(jìn),大模型才有機(jī)會(huì)在各種場景、形態(tài)、模型下大規(guī)模參與到和人的語言對話中,參與的來源也是從云到端再到更低延遲的邊緣進(jìn)行的。基于這些能力的改進(jìn)和普及,未來 RTE 必將成為生成式 AI 時(shí)代 AI 基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵部分。 很多智能都涉及所在領(lǐng)域的專業(yè)知識(shí)和信息,在完成復(fù)雜任務(wù)時(shí),這些專業(yè)信息和知識(shí)可能由于隱私、數(shù)據(jù)權(quán)屬、財(cái)產(chǎn)保密等原因,分布在云邊端的各個(gè)部分。當(dāng)它們協(xié)同完成任務(wù)時(shí),其中連接的延遲降低和可用性的穩(wěn)定保障就成了一個(gè)關(guān)鍵需求。實(shí)時(shí)互動(dòng)領(lǐng)域的軟件定義實(shí)時(shí)網(wǎng) SD-RTN™,對傳輸質(zhì)量的保證以及穩(wěn)定可靠的支持,將是其中必不可少的能力保障。 10 月初,聲網(wǎng)兄弟公司 Agora 作為語音 API 合作者,出現(xiàn)在了 OpenAI 發(fā)布的 Realtime API 公開測試版中。同時(shí),我們也很高興地宣布,聲網(wǎng)與 MiniMax 正在打磨國內(nèi)第一個(gè) Realtime API,這里給大家放個(gè)彩蛋。讓我們一起期待接下來 MiniMax 的正式發(fā)布。 Beyond GenAI 更多進(jìn)化與商業(yè)價(jià)值 生成式 AI 固然是宏大時(shí)代潮流中最重大的趨勢之一,但絕非全部,還有更多 IT 技術(shù)和產(chǎn)業(yè)進(jìn)化在推動(dòng) RTE 行業(yè)發(fā)展,不斷提供新的商業(yè)價(jià)值。 值得一提的是,去年 Apple Vision Pro 正式發(fā)布,盡管行業(yè)第一手體驗(yàn)反饋褒貶不一,但我們認(rèn)為它依舊實(shí)現(xiàn)了實(shí)時(shí)互動(dòng)領(lǐng)域的重大邊界拓展。 Immersive Video 在人的視覺體驗(yàn)上展現(xiàn)了全新的潛力,具備接近全息視覺體驗(yàn)的能力,給人所建立的真實(shí)感遠(yuǎn)遠(yuǎn)超越上一代 VR 設(shè)備。這種新的媒體形式也是未來創(chuàng)造“如聚一堂”互動(dòng)感覺的基礎(chǔ),這些進(jìn)展著實(shí)令人激動(dòng)。 我們很高興在行業(yè)內(nèi)率先推出支持 Vision Pro OS 的 SDK,與客戶和開發(fā)者共同創(chuàng)造眾多有趣的場景。例如 InSpaze,便是利用設(shè)備新能力開展社交的一次極有意義的探索。 隨著疫情的消退,WebRTC 需求雖曾有明顯下降,但在 2023 年回歸穩(wěn)定且呈現(xiàn)穩(wěn)中有升的狀態(tài),整體用量是疫情前的四倍。 WebRTC 開源項(xiàng)目過去一年的進(jìn)化主要體現(xiàn)在一些具體能力點(diǎn)上,包括 AI 噪聲消除、AI 語音增強(qiáng)、支持 AV1 以及適配 AI Insertable Streams。 社交出海持續(xù)升溫,核心區(qū)域的視頻社交增長超過一倍。1V1、秀場直播、語聊房是最受青睞的三個(gè)社交出海場景;用量最大的區(qū)域?yàn)闁|南亞、中東和印度;增長最快的三大區(qū)域分別是東南亞、中東和南美地區(qū)。 2024 年是體育賽事大年,這也促使體育賽事直播應(yīng)用不斷進(jìn)化。數(shù)據(jù)顯示,本屆奧運(yùn)會(huì)相比上屆,通過手機(jī)和智能設(shè)備觀看直播的數(shù)量大幅提升。我們支持的云演播廳場景,可以實(shí)現(xiàn)更低的卡頓率、延遲,擁有更好的互動(dòng)體驗(yàn)和易用性。 在自動(dòng)駕駛領(lǐng)域,RTE 技術(shù)不僅應(yīng)用于 Robotaxi 這種自動(dòng)駕駛出租車上,在各種功能性車輛上的應(yīng)用也在加速落地,甚至比 Robotaxi 更快。 游戲大作的出現(xiàn)持續(xù)推動(dòng)游戲社區(qū)和游戲開黑使用場景的成長。“黑神話:悟空” 的推出使得游戲開黑業(yè)務(wù)呈現(xiàn)爆發(fā)式增長。 在全球市場上,許多被 AI 影響和改造的新場景和新案例也在持續(xù)演進(jìn)。例如,利用 AI 能力進(jìn)行視頻風(fēng)格化處理,可以將視頻改造成卡通等各種風(fēng)格;AI 呼叫中心,由于多模態(tài)和大模型智能的進(jìn)化,也開始加速替代人工客服;AI 智能嬰兒監(jiān)護(hù),除了過去的聽得見和看得見之外,AI 也在嘗試解讀嬰兒的哭聲究竟代表何種需求。 在更多領(lǐng)域,如高端酒店管家、線上劇本殺、虛擬主播等等,都是大模型和多模態(tài)能力進(jìn)化帶來的令人感到豐富多彩、耳目一新的創(chuàng)新。 RTE 產(chǎn)品也正朝著更加專業(yè)化的方向邁進(jìn)。近期,我們推出了面向?qū)崟r(shí)互動(dòng)的 Status Page。它提供了電信級(jí)的質(zhì)量保證,擁有分鐘級(jí)更新質(zhì)量保證狀態(tài)的能力。同時(shí),針對實(shí)時(shí)互動(dòng)對話體驗(yàn),無論是卡頓還是延遲,都能提供更為細(xì)致且清晰的指標(biāo)。我們期望將這樣的 Status Page 透明給所有開發(fā)者和客戶,以便為大家更好地提供對實(shí)時(shí)互動(dòng)服務(wù)狀態(tài)和能力的感知。 AI+RTE 推動(dòng)各行業(yè)場景創(chuàng)新與成熟 生成式 AI 技術(shù)正在結(jié)合新的專業(yè)能力滲透到各個(gè)場景,創(chuàng)造新場景、加速場景成熟以及降低生成場景的成本。 社交泛娛樂領(lǐng)域, 過去一年 AI 寵物突然變成一個(gè)新的有趣玩法。 在線教育領(lǐng)域,生成式 AI 技術(shù)讓原本很難、很貴的服務(wù),變得算力化和平民化。例如 AI 題庫幾乎變成所有大模型都有的知識(shí),降低了利用題庫開展教育服務(wù)的門檻;AI 口語教學(xué)中,多模態(tài)大模型在語言能力上,已經(jīng)完全可以替代傳統(tǒng)口語老師,無論發(fā)音、語法、還是用詞表達(dá)等方面都表現(xiàn)的不錯(cuò); AI 答疑老師基本也可以做到隨叫隨到,結(jié)合多模態(tài)能力,做到與真實(shí)答疑老師能力相當(dāng),甚至更有耐心。語言翻譯能力也隨著我們RTT實(shí)時(shí)翻譯產(chǎn)品功能的發(fā)布成為觸手可及的能力,當(dāng)前這一能力的使用價(jià)值仍然被遠(yuǎn)遠(yuǎn)低估。 AI 多語言交流,正在打破全球語言障礙,成為推進(jìn)全球化的新方式。 IoT 領(lǐng)域最值得關(guān)注的是大模型能力帶來的對話機(jī)器人的實(shí)用化,不僅更容易理解意圖,而是能夠提供實(shí)質(zhì)性、信息量豐富、且擁有高度智慧的答案。預(yù)計(jì)未來一年左右的時(shí)間,大家就會(huì)感受到各種對話機(jī)器人場景的實(shí)用性進(jìn)化。 可穿戴設(shè)備利用生成式 AI 能力成為爆品,比如 Meta 智能眼鏡憑借提供 LLAMA3 支持的對話能力,至少賣了300萬副。 具身智能機(jī)器人也逐漸在 AI 推動(dòng)下成為現(xiàn)實(shí),已經(jīng)沒有什么障礙可以妨礙機(jī)器人走路和生活。 AI 客服正在實(shí)質(zhì)性地替代人工客服,已經(jīng)不只一家創(chuàng)業(yè)公司在大規(guī)模采用 AI 客服,最讓人感到驚訝的是,不僅節(jié)省了人工客服成本,也提升了客服滿意度,這里面有很多值得關(guān)注的進(jìn)化潛力。 會(huì)議場景上,我們的 aPaaS 產(chǎn)品靈動(dòng)會(huì)議已經(jīng)把實(shí)時(shí)字幕、實(shí)時(shí)翻譯和智能會(huì)議紀(jì)要完全做在模板里,任何做會(huì)議協(xié)同甚至社交場景的開發(fā)者和創(chuàng)業(yè)者,都可以利用這一能力簡單打破語言障礙。 AI 對新場景的催化也讓人大開眼界,例如現(xiàn)在智能眼鏡對環(huán)境的理解、認(rèn)知,結(jié)合地理位置和自然對話能力已經(jīng)完全可以取代導(dǎo)盲犬,甚至更好用,這些都開創(chuàng)了以前從未有過的機(jī)會(huì)。 生成式 AI 的確為我們展現(xiàn)了無限的想象空間與諸多可能性,然而,生成式 AI 應(yīng)用的開發(fā)同時(shí)也面臨著諸多挑戰(zhàn)。 首先,基礎(chǔ)大模型和AI應(yīng)用之間的邊界是在哪里?過去一年,包括 Inflection、CharacterAI 以及很多估值10億美元以上的公司被收購,Perplexity 的搜索創(chuàng)新,也遭到了大模型公司和以搜索為主業(yè)的公司的強(qiáng)烈挑戰(zhàn)。那么,究竟哪些應(yīng)用才真正屬于創(chuàng)業(yè)者的機(jī)會(huì)呢?我們認(rèn)為,只有與垂直應(yīng)用所在的領(lǐng)域結(jié)合得越深,壁壘才會(huì)越高,應(yīng)用開發(fā)者也才越有機(jī)會(huì)。 其次,應(yīng)用開發(fā)的架構(gòu)與機(jī)制尚不明晰。在當(dāng)下這個(gè)時(shí)代,將大模型能力視作推理引擎或者知識(shí)庫,如何在此基礎(chǔ)上進(jìn)行應(yīng)用領(lǐng)域的知識(shí)推理和服務(wù),仍然是一個(gè)處于探索階段的話題。LangChain、RAG、SWARM 等框架僅僅是一種思路,雖然可以提供一定能力的支持,但還不夠成熟、不夠完備,更不用說易用性了,這些框架自身不斷變化的現(xiàn)象恰恰反映出其不成熟和不確定的特點(diǎn)。 RTE 10年在場景創(chuàng)新中一路走來 過去的十年,是 RTE 行業(yè)從無到有逐步崛起的十年。十年前,RTE 行業(yè)處于 “三無狀態(tài)”,既無行業(yè)會(huì)議,又無專業(yè)書籍,也無專業(yè)媒體和社區(qū),而如今這些都已逐步建立起來。 在這十年的大會(huì)中,有超過 2000 位來自各領(lǐng)域的專家、講師參與分享,累計(jì)超過 4 萬人次的參會(huì)者親臨現(xiàn)場交流,累計(jì)影響的開發(fā)者超過 200 萬。 今年,我們非常高興地推出了行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普圖書《讀懂實(shí)時(shí)互動(dòng)》。通過這本書,讀者能夠窺探到過去十年實(shí)時(shí)互動(dòng)領(lǐng)域發(fā)展的關(guān)鍵節(jié)點(diǎn)以及其中的規(guī)律、脈絡(luò)和未來的可能性。 RTE 開發(fā)者社區(qū)始終是過去十年 RTE 行業(yè)成長的主旋律。我們欣喜地看到當(dāng)下各個(gè)開發(fā)者項(xiàng)目之間的技術(shù)交流與互動(dòng)達(dá)到了極為高頻和活躍的狀態(tài)。通過 RTE 開發(fā)者社區(qū),我們與大家共同打造一個(gè)技術(shù)共建、產(chǎn)品加速、交流連接的平臺(tái),與各個(gè)開發(fā)者一同把社區(qū)建設(shè)得更加繁榮。 十年征程,RTE 已從一個(gè)理念發(fā)展成為一個(gè)行業(yè)。然而,在如今的生成式 AI 時(shí)代,我們覺得所有過往都僅僅是未來的序章。憑借著 RTE 與 AI 能力結(jié)合的廣闊前景,我們有理由期待下一個(gè)更加波瀾壯闊、激動(dòng)人心的十年。希望在未來的發(fā)展進(jìn)程中,我們能繼續(xù)與大家攜手共進(jìn),開創(chuàng)生成式 AI 時(shí)代下 RTE 的嶄新篇章。 |