豆包大模型家族全面升級(jí) 重磅發(fā)布視覺理解模型
12月18日,豆包大模2024火山引擎FORCE原動(dòng)力大會(huì)·冬在上海舉辦,型家型火山引擎帶來豆包大模型家族全新升級(jí)。族全豆包大模型12月日均tokens使用量超過4萬億,面升較5月發(fā)布時(shí)期增長超過33倍。重覺理解模
火山引擎總裁 譚待
okens調(diào)用規(guī)?;鲩L的磅發(fā)布視同時(shí),豆包大模型在不同場景中都在快速增長、豆包大模全面開花。型家型比如信息處理場景,族全最近3個(gè)月豆包大模型調(diào)用量增長了39倍,面升幫助企業(yè)更好的重覺理解模分析和處理內(nèi)外部數(shù)據(jù);在客服與銷售場景,調(diào)用量增長16倍,磅發(fā)布視幫助企業(yè)更好的豆包大模服務(wù)客戶,擴(kuò)大銷售;在硬件終端場景,型家型增長13倍,族全AI工具增長9倍。
不斷增加的調(diào)用量和多場景覆蓋,讓豆包大模型越來越全面,迎來重磅升級(jí)。
豆包·視覺理解模型發(fā)布,拓寬大模型場景邊界
視覺,是人類理解這個(gè)世界最重要的手段。對(duì)于大模型來說也是如此,只有做好視覺理解,才能讓模型有能力處理好真實(shí)世界的信息,輔助人類完成一系列復(fù)雜工作。本次大會(huì)正式發(fā)布了豆包·視覺理解模型,用戶可以同時(shí)輸入文本和圖像相關(guān)的問題。模型能夠綜合理解并給出準(zhǔn)確的回答。這將極大地簡化應(yīng)用的開發(fā)流程,解鎖更多的大模型價(jià)值場景。
更強(qiáng)的內(nèi)容識(shí)別能力:不僅可以識(shí)別出圖像中的物體類別、形狀等基本要素,還能理解物體之間的關(guān)系、空間布局以及場景的整體含義。 更強(qiáng)的理解和推理能力:不僅能更好地識(shí)別內(nèi)容,還能根據(jù)所識(shí)別的文字和圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算。
更細(xì)膩的視覺描述能力:可以基于圖像信息,更細(xì)膩地描述圖像呈現(xiàn)的內(nèi)容,還能進(jìn)行多種文體的創(chuàng)作。
基于以上能力,豆包·視覺理解模型在教育、旅游、電商等場景有著非常廣泛的應(yīng)用。在教育場景中,為學(xué)生優(yōu)化作文、科普知識(shí);在旅游場景中,幫助游客看外文菜單、講解照片中建筑的背景知識(shí);在電商營銷場景中,幫助商家充分描述商品細(xì)節(jié),高效發(fā)布種草廣告等等。視覺理解能力將極大拓展大模型的場景邊界,為大模型的場景使用打開天花板,在金融、醫(yī)療、建筑、地理、體育、物流等諸多行業(yè)還有非常廣闊的應(yīng)用前景。
豆包·視覺理解的輸入價(jià)格為每千tokens 0.003元,比行業(yè)平均價(jià)格降低85%,相當(dāng)于一塊錢可以處理284張720P的圖片,視覺理解模型正式走進(jìn)厘時(shí)代。同時(shí)火山引擎還將提供更高的初始流量,RPM達(dá)到了15,000次,TPM達(dá)到120萬,讓企業(yè)和開發(fā)者用好視覺理解模型,找到更多創(chuàng)新場景。
豆包大模型家族再進(jìn)化,豆包通用模型pro迭代新版本
在本次大會(huì)中,火山引擎除了推出視覺理解模型之外,還發(fā)布、升級(jí)了多個(gè)其他模型。大模型家族成員更豐富,大模型能力再提升。
豆包通用模型pro完成新版本迭代:綜合任務(wù)處理能力較5月份提升32%,在推理上提升13%,在指令遵循上提升9%,在代碼上提升58%,在數(shù)學(xué)上提升43%,在專業(yè)知識(shí)領(lǐng)域能力提升54%。
豆包·音樂模型4.0發(fā)布:從 “高光片段” 走向 “完整歌曲”,支持包括前奏、主歌、副歌、間奏、過渡段的3分鐘全曲創(chuàng)作;歌詞局部修改,仍能適配原有旋律;全曲風(fēng)格、情感和音樂邏輯保持一致,曲風(fēng)連貫。
豆包·文生圖模型2.1發(fā)布:支持“一鍵P圖”,可以高精度指令理解,對(duì)中英文、專有名詞“來者不拒”;高質(zhì)量編輯效果,聚焦目標(biāo),不“誤傷”原圖;高效率創(chuàng)新模型,可實(shí)現(xiàn)多元風(fēng)格,美觀自然。支持“一鍵海報(bào)”,中文精準(zhǔn)生成,高質(zhì)量精準(zhǔn)生成中文;圖文精妙融合,字體與圖片內(nèi)容巧妙融合;極速海報(bào)生成,模型最快做到6秒出圖。
veOmniverse+豆包·3D生成模型發(fā)布:veOmniverse支持高保真視覺渲染、大規(guī)模渲染算力池、物理&傳感精確模擬、即開即用的3D編輯器。豆包·3D生成模型,支持文生3D、圖生3D及多模態(tài)生成,1min生成高保真、高質(zhì)量3D資產(chǎn),復(fù)雜物品、物品組合大規(guī)模場景生成,支持多模態(tài)3D資產(chǎn)編輯。
此外,豆包·視頻生成模型將在2025年1月正式對(duì)外開放服務(wù),用戶可在火山引擎官網(wǎng)預(yù)約正式服務(wù)。
全域搜索、高效記憶為模型落地加速
為了幫助企業(yè)輕松應(yīng)對(duì)信息獲取和搜索推薦的挑戰(zhàn),火山引擎推出全域AI搜索,通過場景化搜索推薦一體化服務(wù)、企業(yè)私域信息整合服務(wù)、聯(lián)網(wǎng)問答服務(wù),將企業(yè)的信息、業(yè)務(wù)和用戶需求緊密結(jié)合,幫助企業(yè)實(shí)現(xiàn)“發(fā)現(xiàn)更多,推薦更準(zhǔn),搜索無限可能”。
火山引擎AI搜推引擎基于基于豆包大模型家族的融合增強(qiáng)技術(shù)驅(qū)動(dòng);搜索推薦一體,有強(qiáng)大的推薦能力、結(jié)果精準(zhǔn)、深度個(gè)性化;支持多模態(tài),文本、圖像、音頻、視頻全能理解;電商、信息檢索、娛樂場景通通適用;性能強(qiáng),支持百億內(nèi)容規(guī)模、超大規(guī)模吞吐、亳秒級(jí)檢索。聯(lián)網(wǎng)問答Agent基于抖音集團(tuán)海量優(yōu)質(zhì)實(shí)時(shí)內(nèi)容更豐富;秒級(jí)呈現(xiàn),依據(jù)問題提供時(shí)效性熱點(diǎn)答案更高效;圖片、語音、文字等多模態(tài)可視化創(chuàng)新交互更創(chuàng)新,幫助企業(yè)實(shí)現(xiàn)全域信息一觸即達(dá)。
記憶對(duì)大模型是非常重要的,記憶未來會(huì)是大模型必備的能力?;鹕揭嫒诤狭烁玫纳舷挛木彺婕夹g(shù)和RAG技術(shù),發(fā)布大模型記憶方案,將通過更快的響應(yīng)速度、更低的使用成本、更精準(zhǔn)的效果、以及億級(jí)別的記憶片段,幫助客戶構(gòu)建更有效的記憶方案。
扣子升級(jí)1.5版本,讓AI離應(yīng)用更近一步:
開發(fā)者生態(tài)逐漸完善:超過100萬活躍開發(fā)者,發(fā)布超過200萬個(gè)智能體。
全新的AI應(yīng)用開發(fā)環(huán)境:支持GUI搭建界面,并且可以一鍵發(fā)布為小程序 、H5、API等多種應(yīng)用形態(tài)。
更強(qiáng)的多模態(tài)能力:提供音視頻對(duì)話能力,端到端延遲響應(yīng)低至1秒,低成本SDK快速接入各類硬件。
海量的精品模板:涵蓋多業(yè)務(wù)場景,一鍵復(fù)制使用
HiAgent升級(jí)1.5版本,幫助企業(yè)敏捷構(gòu)建企業(yè)級(jí) AI 原生應(yīng)用的能力中心:
更懂AI轉(zhuǎn)型:提供觀測&評(píng)測體系,保障效果生產(chǎn)可用;提供100+行業(yè)應(yīng)用模板,企業(yè)可開箱即用;提供配套AI咨詢,幫助企業(yè)找到AI落地路徑。
更深業(yè)務(wù)適配:提供豐富的企業(yè)級(jí)插件、靈活的應(yīng)用集成機(jī)制;GraphRAG構(gòu)建知識(shí)圖譜,提供細(xì)粒度的知識(shí)資產(chǎn)管理;生成式畫布融合CUI和GUI,打造智能交互引擎。
更強(qiáng)安全保障:支持 RAG 知識(shí)庫和大模型全棧私有化部署。
模型落地加速將為企業(yè)帶來更多機(jī)遇,助力多行業(yè)加速智能化轉(zhuǎn)型。在汽車領(lǐng)域,過去7個(gè)月,豆包大模型汽車行業(yè)日均tokens消耗增長了50倍,目前已服務(wù)國內(nèi)市場近八成汽車品牌,穩(wěn)坐汽車行業(yè)大模型服務(wù)商第一梯隊(duì)。在智能終端領(lǐng)域,豆包大模型服務(wù)了終端行業(yè)客戶50+AI應(yīng)用場景,覆蓋超過了3億個(gè)終端設(shè)備,為消費(fèi)者帶來更加智能的生活與工作體驗(yàn),來自智能終端的豆包大模型日均tokens調(diào)用量從5月到12月增長了100倍。
技術(shù)架構(gòu)面向AI全面轉(zhuǎn)型AI云與基礎(chǔ)設(shè)施持續(xù)創(chuàng)新
火山引擎在基礎(chǔ)架構(gòu)、數(shù)據(jù)分析等層面帶來新服務(wù),為企業(yè)打造更便捷、更高效、更安全的AI體驗(yàn)。
火山引擎認(rèn)為下一個(gè)十年,計(jì)算范式應(yīng)該從云原生,進(jìn)入到AI云原生的新時(shí)代。AI云原生,將以GPU為核心重新來優(yōu)化計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)架構(gòu),GPU可以直接訪問存儲(chǔ)和數(shù)據(jù)庫,來顯著的降低IO延遲。同時(shí),全系統(tǒng)提供更高規(guī)模的高速互聯(lián),和端到端的安全保護(hù)?;贏I云原生的理念,火山引擎推出新一代計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和和安全產(chǎn)品。在計(jì)算層面,新一代的火山引擎GPU實(shí)例,通過vRDMA網(wǎng)絡(luò),支持大規(guī)模并行計(jì)算和P/D分離推理架構(gòu),顯著提升訓(xùn)練和推理效率,降低成本。存儲(chǔ)上,新推出的EIC彈性極速緩存,能夠?qū)崿F(xiàn)GPU直連,使大模型推理時(shí)延降低1/50;成本降低20%。在安全層面,火山將推出PCC私密云服務(wù),構(gòu)建大模型的可信應(yīng)用體系。
此外,火山引擎還升級(jí)了數(shù)據(jù)飛輪2.0,全鏈路AI開啟數(shù)智生產(chǎn)力新時(shí)代。所有的數(shù)據(jù)分析產(chǎn)品,包括cdp、BI、用戶行為分析、AB測試等,都推出了基于大模型的智能化新功能。同時(shí),推出全模態(tài)數(shù)據(jù)湖解決方案,讓企業(yè)可以統(tǒng)一的管理好結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),并結(jié)合傳統(tǒng)ETL和大模型進(jìn)行綜合分析。
未來,火山引擎將持續(xù)提升模型能力,優(yōu)化模型服務(wù),推動(dòng) AI 在各行業(yè)的深度融合與創(chuàng)新應(yīng)用。更強(qiáng)能力、更低價(jià)格、更易落地的豆包大模型將助力開啟更智能、高效、便捷的 AI 未來。未來,火山引擎將持續(xù)提升模型能力,優(yōu)化模型服務(wù),推動(dòng) AI 在各行業(yè)的深度融合與創(chuàng)新應(yīng)用。“更強(qiáng)模型、更低價(jià)格、更易落地”的豆包大模型將助力開啟更智能、高效、便捷的AI未來。