RockAI亮相中國生成式AI大會探索端側(cè)智能新邊界

2024-12-23 01:56:30 分類：百科閱讀(493)

12月5日,亮相以“智能躍進(jìn) 創(chuàng)造無限”為主題的2024中國生成式AI大會(上海站)正式開幕。在主會場首日的中國大模型峰會上,RockAI CTO楊華帶來《非Transformer架構(gòu)大模型Yan在端側(cè)的實踐》主題演講,主要探討了生成式AI在端側(cè)面臨的挑戰(zhàn),詳解國內(nèi)首個非Transformer架構(gòu)大模型Yan的技術(shù)路線及其落地應(yīng)用,同時分享了大模型從單體智能到群體智能的發(fā)展路徑。

Transformer架構(gòu)雖在大模型領(lǐng)域取得巨大成功,生成式A索端但它表現(xiàn)出的局限性,例如計算和內(nèi)存消耗大、特征提取能力相對較弱等,側(cè)智使得人們開始思考是否過度依賴它,以及現(xiàn)有大模型形態(tài)的可持續(xù)性。

基于以上思考,邊界RockAI從底層原理出發(fā),在架構(gòu)層面做創(chuàng)新,推出了非Transformer架構(gòu)的大模型——Yan架構(gòu)大模型。底層原理主要有兩點,亮相一是類腦激活機(jī)制,二是MCSD。前者參照人腦神經(jīng)網(wǎng)絡(luò),中國大幅減少計算冗余,有效提升計算效率和精度;后者在訓(xùn)練時可充分利用GPU并行計算能力,推理時也能夠解決內(nèi)存占用逐漸增加的問題。

依托算力受限場景下的生成式A索端本地部署運行等優(yōu)勢,Yan架構(gòu)大模型在手機(jī)、電腦、側(cè)智機(jī)器人、邊界無人機(jī)、亮相樹莓派等端側(cè)設(shè)備上均可部署,中國且模型具有強(qiáng)大的指令跟隨能力、多應(yīng)用場景。生成式A索端此外,側(cè)智自主學(xué)習(xí)、群體智能也是邊界RockAI在大模型領(lǐng)域的思考和探索。

以下為演講全文(共4355字,約需15分鐘)。

非Transformer架構(gòu)大模型Yan

“非Transformer”對大多數(shù)人來說可能會比較陌生。為什么會陌生?因為我們現(xiàn)在身邊所接觸、所使用的模型,基本上都是基于Transformer。

RockAI為什么要做一個非Transfermer Based的模型,以及我們是怎么做的,當(dāng)前做到什么樣的進(jìn)展?今天我會圍繞這個主線和大家做一些分享,同時也會分享RockAI在大模型時代對技術(shù)路線的一些思考。

兩年前,GPT掀起了這一輪大模型的浪潮?，F(xiàn)在來看,無論是自然語言的大模型還是多模態(tài)的大模型,甚至是文生圖、文生視頻的模型,大家能看到曝光率最高的是Transformer,Transformer毫無疑問也取得了很大的成功。

但是在浪潮之后,作為技術(shù)的從業(yè)人員不禁會思考:當(dāng)前我們是否會過度依賴于Transformer?在Transformer之外還有沒有其他可能性的進(jìn)展以及技術(shù)上的突破?Transformer作為大模型時代一個明星的技術(shù)點,它是不是真的不可取代?

另外一個事實現(xiàn)象也會告訴我們:人腦在思考問題的時候,只會使用到二十瓦的功耗,而我們現(xiàn)在普通人接觸到的一臺GPU服務(wù)器,它所需要的功耗差不多在兩千瓦。面對這巨大的功耗懸殊比,我們不禁要問,當(dāng)前的技術(shù)路線是不是可持續(xù)發(fā)展的?

另外,我們還會思考一個問題,現(xiàn)有的大模型,它的形態(tài)是什么樣子?更多的是模型廠商基于大量的數(shù)據(jù)、大量的算力做離線訓(xùn)練,然后給到使用者使用,模型并不會再次進(jìn)化、再次演進(jìn)。這樣的學(xué)習(xí)范式,是不是能夠支撐我們通向AGI?

RockAI也一直在思考這些問題,同時,行業(yè)里面也會有很多的聲音。人工智能的三巨頭在不同的時間點、不同的場合下,表達(dá)了對Transformer的一些顧慮跟思考?！禔ttention is All You Need》論文的原作者,也在今年GDC大會發(fā)表了一些觀點。

目前的大模型,無論參數(shù)量是千億還是萬億,思考一個簡單問題還是一個復(fù)雜問題,所有的神經(jīng)元參數(shù)會被全部激活,并不會因為某個問題難,而像人類一樣需要思考的時間更多,輸出更慢。

基于這些思考,RockAI從底層原理出發(fā),在架構(gòu)層面做創(chuàng)新,我們推出了Yan架構(gòu)大模型。

主要有兩個基本原理,類腦激活機(jī)制和MCSD。在這兩塊技術(shù)模塊的加持下,Yan架構(gòu)的設(shè)計理念秉承三點:

一是類人的感知,我們認(rèn)為模型跟外界環(huán)境的接觸,不僅僅是文本一種形態(tài),還會有視覺形態(tài),也會有語音形態(tài)。

二是類人的交互,如果我們過度依賴于云端的模型,隱私的安全、通信的延遲,都有可能成為它的瓶頸。

三是類人的學(xué)習(xí),現(xiàn)在的模型部署后,在和物理世界交互的過程中并不會獲得二次進(jìn)化的能力。

圖示是Yan架構(gòu)迭代到今天為止所依賴的技術(shù)模塊。我們以神經(jīng)元選擇激活(類腦激活機(jī)制)以及MCSD這兩個模塊替換了Transformer里面的Attention機(jī)制。

類腦激活機(jī)制,參照人腦的神經(jīng)網(wǎng)絡(luò)。人類的腦神經(jīng)元,是一個分層的結(jié)構(gòu),比如說我們在看東西的時候,更多的是視覺皮層的神經(jīng)元被激活,那思考問題的時候,可能是邏輯神經(jīng)元被激活。我們的大模型在訓(xùn)練、推理時,也符合這樣的特性,在一次前向推理的過程中,激活神經(jīng)元是有選擇的。

MCSD,設(shè)計之初,我們希望模型具有可并行訓(xùn)練、可循環(huán)推理的特點,在訓(xùn)練的過程中達(dá)到更少的功耗消耗,在推理的時候也能達(dá)到一個O(n)的時間復(fù)雜度以及常量的空間復(fù)雜度,解決注意力機(jī)制推理時內(nèi)存占用逐漸增加的問題。

今年八月份在部分?jǐn)?shù)據(jù)集上進(jìn)行的測評,對比相同參數(shù)量的Transformer架構(gòu)模型,Yan架構(gòu)大模型無論是訓(xùn)練效率,還是推理吞吐量,都有明顯提升。

值得一提的是,我們的Yan架構(gòu)大模型已經(jīng)通過了國家網(wǎng)信辦的備案。

Yan架構(gòu)大模型的端側(cè)多模態(tài)應(yīng)用

基于Yan架構(gòu)的自然語言大模型,我們也開啟了多模態(tài)的探索。

模型一旦部署到端側(cè),文本這樣的形態(tài)反而是最不容易會觸發(fā)的,更多的是語音交互。基于這樣的思考,我們設(shè)計了Yan多模態(tài)大模型。不同于現(xiàn)在很多大模型可能會做對視覺的理解、視覺圖像的生成,Yan-Omni多模態(tài)大模型聚焦的是對文本、人聲、圖像、視頻混合模態(tài)的理解,以及文本和音頻的token輸出。

我們核心解決的點包括:

第一個是Audio Tokenizer,為什么會有這么一個模塊?因為我們需要將連續(xù)一個人的聲音變換成離散化特征表征。我們探索了很多種路徑,包括語音,因為人說話時,除了語義信息之外,還有更多的聲學(xué)特征,比如說這個人的喜怒哀樂,這個人的性別。我們也會對語義token和聲學(xué)token做一個區(qū)分,并且在離散化特征表征時對碼本有所考量,設(shè)計合適的碼本,同時盡可能保證碼本的高利用率。

第二個是Vision Encoder,視覺模塊,我們也設(shè)計了一個中文友好的跨模態(tài)特征對齊。另外一個層面我們會發(fā)現(xiàn),現(xiàn)在多數(shù)視覺和文本的對齊模型,可能會聚焦在全局語義信息的對齊。但是,如果能做到圖像里的圖像塊和文本里的文本片段更細(xì)粒度的對齊,這對多模態(tài)大語言模型的使用性能會有巨大提升。

同時我們也會關(guān)注信息壓縮的高效性。比如說,在端側(cè)算力受限的場景下,如果一個視覺圖像編碼時的token長度過長,勢必會影響模型推理的耗時。

基于這些點,我們研發(fā)了Yan-Omni。

圖示中,我們能看到Y(jié)an-Omni當(dāng)前能夠做到的一些模態(tài)的輸入輸出。

首先它作為多模態(tài)大模型,自然而然會有一個文本的輸入和輸出的狀態(tài)。

同時還會有聲音,比如當(dāng)我說話的時候去問模型問題,它也會以語音的方式來回復(fù)我,也就是第二個模塊VQA。

在視覺的問答模塊里,當(dāng)用戶以文本的形式去問問題,模型會自動選擇以文本的模態(tài)進(jìn)行回復(fù),當(dāng)用戶以聲音的模態(tài)去問的時候,模型會自動選擇用聲音的模態(tài)進(jìn)行回復(fù),這表現(xiàn)了模型強(qiáng)大的指令跟隨能力。同時在OCR這個模塊,它對一個長密集的中文文本也能做到很高準(zhǔn)確率的轉(zhuǎn)錄。

在Ref Grounding目標(biāo)檢測里,例如自然災(zāi)害、火災(zāi)等,可以應(yīng)用在無人機(jī)航拍,及時做到異常場景的發(fā)現(xiàn)。

最后還有ASR跟TTS任務(wù),它能夠很好地處理中英文混用的場景。

通過Yan-Omni模型在這些任務(wù)上的表現(xiàn),我們可以發(fā)現(xiàn),它能夠做到多模態(tài)的輸入,以及文本跟音頻選擇性模態(tài)的輸出。

基于Yan-Omni,我們在多個端側(cè)上進(jìn)行了模型的本地化部署跟推理。最低算力上,Yan架構(gòu)的大模型可以在樹莓派5的開發(fā)板上部署運行,推理的token吞吐量能夠達(dá)到7tokens每秒。樹莓派開發(fā)板廣泛應(yīng)用在工業(yè)控制、智能家居、機(jī)器人、平板電腦等載體設(shè)備上。

在中低算力的手機(jī)上,也能部署Yan多模態(tài)大模型,能夠達(dá)到20tokens每秒的輸出。它能當(dāng)作個人的智能助手,準(zhǔn)確理解用戶意圖。比如我要給小張發(fā)一條短信,它能從我的通訊錄里找到小張,激活短信應(yīng)用,然后基于要發(fā)的主題進(jìn)行信息生成。

Yan架構(gòu)多模態(tài)大模型,無論是部署在教育機(jī)器人,還是人形機(jī)器人,都能實現(xiàn)通用問答、動作控制、環(huán)境感知。

如果一架無人機(jī)搭載了多模態(tài)大模型,它可以做哪些事兒?我們在無人機(jī)場景中設(shè)置了四個巡航點,到第一個巡航點的時候,它通過視覺信息的捕獲,明白當(dāng)前場景“限低10米”,會將飛行高度提高到10米以上,繼續(xù)飛行。在第二個巡航點,我們設(shè)定的任務(wù)是垃圾溢出檢測,它能夠準(zhǔn)確識別到當(dāng)前有垃圾溢出。第三個巡航點,是河對岸一個沒有垃圾溢出的垃圾桶,最后是河面垃圾的檢測,無人機(jī)都能夠基于視覺模態(tài)進(jìn)行準(zhǔn)確的識別。

邁向群體智能

創(chuàng)新,RockAI一直在路上。我們自主研發(fā)的Yan架構(gòu)大模型不僅能夠在端側(cè)部署,更多的是希望讓它具備自主學(xué)習(xí)的能力。RockAI認(rèn)為,智能最本質(zhì)的特征是能夠糾正現(xiàn)存知識的缺陷和不足,同時能夠增加新的知識。

目前無論是大模型還是小模型,大多數(shù)都是離線訓(xùn)練好再給用戶使用。用戶在使用過程中,模型的知識并不會二次變更和進(jìn)化,不會因為它和我的接觸時間長了就會更理解我的喜好。

而RockAI想做的是訓(xùn)推同步,將人類學(xué)習(xí)進(jìn)化的特點也賦予機(jī)器,這依賴于Yan架構(gòu)的選擇性神經(jīng)元激活。

當(dāng)部署Yan架構(gòu)大模型的設(shè)備,在和物理世界進(jìn)行交互的過程中,比如學(xué)習(xí)到“Yan is a non-Transformer architecture large model developed by RockAI.”,基于這樣的輸入,機(jī)器會選擇激活神經(jīng)元,從信息里面提煉出兩條,一條是“Yan is a non-Transformer architecture”,一條是“Yan is developed by RockAI”。這兩條信息,是模型進(jìn)行自主學(xué)習(xí)的一個過程。

有了自主學(xué)習(xí)的能力,大模型會演變成什么樣?反觀人類社會還有自然界,我們會發(fā)現(xiàn),無論是蟻群、蜂群,還是人類群體,廣泛存在的是群體智能。這也是RockAI認(rèn)為通往AGI的一條可能的路線。

當(dāng)機(jī)器有了群體智能,每一個部署Yan多模態(tài)大模型的智能終端,就是一個具備自主學(xué)習(xí)能力的智能體。當(dāng)智能體和物理世界進(jìn)行交互時,能夠通過環(huán)境的感知,進(jìn)行自發(fā)地組織與協(xié)作,解決復(fù)雜的問題,同時在外界的環(huán)境中,實現(xiàn)整體智能的提升,這一點很有必要。為什么?因為現(xiàn)在的大模型,它是依賴于海量數(shù)據(jù)、大算力,數(shù)據(jù)總有一天會使用枯竭,而部署了Yan架構(gòu)大模型的終端設(shè)備,可以在與物理世界交互中進(jìn)行二次進(jìn)化,將實時獲得的數(shù)據(jù)內(nèi)化到模型里。

RockAI認(rèn)為,實現(xiàn)群體智能有三個必要條件:

首先,兼容廣泛的終端,模型需要有強(qiáng)大的適配伸縮性,比如說低至樹莓派這樣的開發(fā)板,然后到手機(jī)、AIPC,還是無人機(jī)這樣搭載Jetson算力的硬件平臺。只有在更廣泛的端側(cè)設(shè)備上進(jìn)行部署,群體智能才成為一種可能。

其次是人機(jī)交互。我們會發(fā)現(xiàn),當(dāng)一款產(chǎn)品推向市場的時候,如果不能做到實時性交互,用戶的耐心其實并不會很高。同時它也一定不是以單一模態(tài)在載體中呈現(xiàn),我們需要的是它能感知視覺,感知聲音,甚至能感知信號。

最后我們認(rèn)為,實現(xiàn)群體智能需要有一款具備自主學(xué)習(xí)能力的模型。也就是說,讓模型從實驗室階段,或者從單純的推理應(yīng)用階段,走向物理世界,在和人、其他硬件進(jìn)行交互的過程中進(jìn)化、演變。

從Yan架構(gòu)大模型到群體智能的革新之路,是我們RockAI的技術(shù)之路。

最底層,我們希望有兼容廣泛終端設(shè)備的大模型存在,同時能夠支持很好的人機(jī)交互,每一臺部署Yan架構(gòu)大模型的設(shè)備具備自主學(xué)習(xí)的能力。在此基礎(chǔ)上,以這樣的模型充當(dāng)每臺設(shè)備上的一個通用智能操作系統(tǒng),部署到玩具,還有手機(jī)、機(jī)器人、AR眼鏡、無人機(jī),以及AIPC等等?；趶V泛的終端應(yīng)用,構(gòu)成群體智能。廣泛的終端,它可以是一個無中心節(jié)點的組織形式,也可以是一個有中心節(jié)點的組織形式。

今年珠海航展,RockAI Yan架構(gòu)大模型,跟隨上海交通大學(xué),在珠海航展亮相,展示了在無人機(jī)的場景里面,怎么做到讓機(jī)群進(jìn)行一個任務(wù)的完成。

RockAI是一家技術(shù)創(chuàng)新型的創(chuàng)業(yè)公司,我們的目標(biāo)是邁向群體智能,這個目標(biāo)分為四個階段。

第一個階段是架構(gòu)的重塑,架構(gòu)的重塑意味著我們不再依賴于Transformer這一套單一的技術(shù)體系。

第二個階段是單體的推理。非Transformer架構(gòu)的模型能夠在更廣泛的設(shè)備端進(jìn)行推理和部署,不再依賴于云端的計算資源,甚至不再依賴于通信網(wǎng)絡(luò)的存在。

第三個階段也是目前我們在實驗室階段的單體智能。要求我們現(xiàn)在的模型往前更進(jìn)一步,在和環(huán)境交互的過程中形成一個正反饋系統(tǒng),擁有訓(xùn)推同步、自主性二次進(jìn)化能力。

有了更多的單體智能,我們會走向第四階段——群體智能。

現(xiàn)階段RockAI已經(jīng)邁過了第二階段,在第三階段進(jìn)行沉淀。而多數(shù)大模型廠商受限于Transformer架構(gòu)所需的推理算力以及多模態(tài)性能,目前還在端側(cè)設(shè)備上進(jìn)行推理部署的嘗試。

最后謝謝大家!希望國內(nèi)有更多開發(fā)者做出更多創(chuàng)新,也歡迎加入RockAI,和我們一起探索群體智能的技術(shù)路線。

贊(6345)

未經(jīng)允許不得轉(zhuǎn)載：>下愚不移網(wǎng) » RockAI亮相中國生成式AI大會探索端側(cè)智能新邊界

黄色网站va,欧美一区综合,91九色成人,亚洲午夜视频,综合激情久久,伊人成网站222综合网,三级在线观看视频

下愚不移網(wǎng)

RockAI亮相中國生成式AI大會探索端側(cè)智能新邊界

相關(guān)推薦

站長推薦

最新發(fā)布

分城市

友情鏈接

回頂部