游客發(fā)表
近日消息,新榜國際權(quán)威榜單 LiveBench 官網(wǎng)公布了最新的單階第語言大模型測評結(jié)果,階躍星辰自研的躍星萬億參數(shù)語言大模型 Step-2 的技術(shù)表現(xiàn)位列中國基座大模型第一,成績逼近 OpenAI 的辰位 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、列中g(shù)emini-1.5-pro-002 等國際主流模型,模型是新榜唯一進入榜單前十名的中國語言大模型,位列全球第五。單階第另外,躍星同時上榜的辰位中國大模型公司還有通義千問和 DeepSeek。
LiveBench 是列中由圖靈獎得主、Meta 首席 AI 科學(xué)家楊立昆(Yann LeCun)聯(lián)合 Abacus.AI、模型紐約大學(xué)等機構(gòu)聯(lián)合推出的新榜大模型測評基準(zhǔn)。LiveBench 從包括數(shù)學(xué)、單階第推理、躍星編程、語言理解、指令遵循和數(shù)據(jù)分析在內(nèi)的多個復(fù)雜維度對模型進行評估,采用新穎的數(shù)據(jù)來源并保持每月更新,被譽為「世界上第一個不可玩弄的 LLM 基準(zhǔn)測試」。
值得關(guān)注的是,Step-2 在 IF Average(Instruction Following)一項表現(xiàn)突出,超越包括 o1-preview-2024-09-12 在內(nèi)的所有國內(nèi)外語言大模型。這意味著,Step-2 在語言生成上對細(xì)節(jié)有最強的控制力,模型能夠更好地理解和遵循人類指令,捕捉到模糊需求背后用戶的真實意圖,對通用及特定領(lǐng)域知識的覆蓋上都有更好的表現(xiàn)。比如當(dāng)使用 Step-2 創(chuàng)作古詩詞,模型在發(fā)揮創(chuàng)意的同時能夠?qū)ψ謹(jǐn)?shù)、格律、押韻、意境做到精準(zhǔn)把握。
據(jù)了解,今年 3 月,階躍星辰發(fā)布了 Step-2 語言大模型預(yù)覽版,這是國內(nèi)首個由創(chuàng)業(yè)公司發(fā)布的萬億參數(shù)模型。目前,階躍星辰開放平臺為開發(fā)者提供 Step-2 的 API 接口,該公司的 C 端智能助手「躍問」也已經(jīng)接入了 Step-2 萬億參數(shù)語言大模型,用戶在躍問 App 和躍問官網(wǎng)(https://yuewen.cn)皆可體驗。
隨機閱讀
熱門排行
友情鏈接