您現(xiàn)在的位置是:探索 >>正文
對(duì)標(biāo)OpenAI o1!Kimi發(fā)布新一代推理模型:中考高考考研全第一
探索711人已圍觀
簡(jiǎn)介11月18日消息,日前,國(guó)內(nèi)人工智能公司月之暗面推出的Kimi國(guó)產(chǎn)大模型正式發(fā)布k0-math。k0-math是Kimi推出的首款推理能力強(qiáng)化模型,采用全新強(qiáng)化學(xué)習(xí)和思維鏈推理技術(shù),通過模擬人腦的思考 ...
11月18日消息,對(duì)標(biāo)代推第日前,布新國(guó)內(nèi)人工智能公司月之暗面推出的理模Kimi國(guó)產(chǎn)大模型正式發(fā)布k0-math。
k0-math是型中Kimi推出的首款推理能力強(qiáng)化模型,采用全新強(qiáng)化學(xué)習(xí)和思維鏈推理技術(shù),考高考考通過模擬人腦的研全思考和反思過程,大幅提升解決數(shù)學(xué)難題的對(duì)標(biāo)代推第能力。
據(jù)了解,布新在多項(xiàng)數(shù)學(xué)基準(zhǔn)能力測(cè)試中,理模k0-math的型中表現(xiàn)能對(duì)標(biāo)OpenAI o1系列可公開使用的兩個(gè)模型:o1-mini和o1-preview。
根據(jù)官方公布的考高考考結(jié)果,在中考、研全高考、對(duì)標(biāo)代推第考研以及包含入門競(jìng)賽題的布新MATH等4個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中,k0-math初代模型成績(jī)超過o1-mini和o1-preview模型,理模拿下第一。
在業(yè)界最常使用的數(shù)學(xué)能力基準(zhǔn)測(cè)試MATH 中,k0-math模型得分93.8,超過 o1-mini的90分和o1-preview的85.5分。
官方表示,k0-math這一成績(jī)僅次于暫未開放使用的o1完全版94.8分。
據(jù)介紹,常規(guī)模型的設(shè)定目標(biāo)是盡快提供問題的答案,但k0-math不同,k0-math模型在做題過程中會(huì)花更長(zhǎng)的時(shí)間來推理,包括思考和規(guī)劃思路,并且在必要時(shí)自行反思改進(jìn)解題思路,提升答題的成功率。
不過,月之暗面坦言,k0-math雖然擅長(zhǎng)解答大部分很有難度的數(shù)學(xué)題,但是當(dāng)前版本還無法解答LaTeX格式難以描述的幾何圖形類問題。
另外,k0-math還有一些局限性需要突破,包括對(duì)于過于簡(jiǎn)單的數(shù)學(xué)問題,例如1+1等于幾,k0-math模型可能會(huì)過度思考,對(duì)于高考難題和IMO題目依然有一定概率做錯(cuò)、猜答案。
月之暗面表示,這些局限性既是機(jī)遇,也是挑戰(zhàn),預(yù)計(jì)將在下一階段的模型迭代中逐步得到改善。
Tags:
相關(guān)文章
推出5年 《使命召喚手游》全球下載量達(dá)10億次
探索動(dòng)視透露,在游戲自2019 年 10 月推出后 5 周年之際,《使命召喚手游》的下載量?jī)|突破 10 億次。該數(shù)字使得它成為了《使命召喚》史上最暢銷的游戲。游戲的第 10 賽季將于晚些時(shí)候上線,將包含全 ...
【探索】
閱讀更多法比尼奧:沒和薩拉赫等人談過沙特聯(lián)賽,希望利物浦本賽季奪冠
探索10月31日訊 利物浦舊將、現(xiàn)效力于吉達(dá)聯(lián)合的法比尼奧接受了媒體的采訪,談到了紅軍本賽季的優(yōu)異表現(xiàn)和薩拉赫等前隊(duì)友的續(xù)約問題。如何看待本賽季利物浦的出色表現(xiàn)?“在我看來這很正常,因?yàn)槔锲值年嚾菰谟⒊?...
【探索】
閱讀更多RTX 50系列已開工投產(chǎn)!RTX 40系列只剩一根獨(dú)苗
探索11月12日消息,隨著RTX 50系列桌面版、移動(dòng)版都將在明年初發(fā)布,其中桌面版會(huì)在一季度內(nèi)全部發(fā)完,推進(jìn)速度相當(dāng)快,產(chǎn)能自然也要提前跟上。據(jù)最新消息,NVIDIA已經(jīng)完全撤掉了AD106 GPU芯片 ...
【探索】
閱讀更多