過(guò)去一年多里,數(shù)據(jù)U使人工智能(AI)浪潮席卷全球,中心主要的用壽科技公司都在大舉投資數(shù)據(jù)中心GPU,這使得市場(chǎng)上最大的命或數(shù)據(jù)中心GPU英偉達(dá)賺得盆滿(mǎn)缽滿(mǎn)。雖然高性能的驚人數(shù)據(jù)中心GPU定價(jià)很高,但是數(shù)據(jù)U使使用壽命卻不太長(zhǎng),這是中心由于平常承受著AI推理訓(xùn)練的繁重工作負(fù)載,往往比其他組件老化得更快。用壽 據(jù)報(bào)道,命或最近有報(bào)告稱(chēng),驚人云服務(wù)提供商(CSP)運(yùn)營(yíng)的數(shù)據(jù)U使數(shù)據(jù)中心里,這些GPU在AI工作負(fù)載中的中心利用率約為60%至70%。按照這個(gè)利用率,用壽GPU通常只能使用1到2年,命或即便較為理想的驚人狀態(tài),最多也就3年。需要強(qiáng)調(diào)的是,現(xiàn)在用于AI和HPC應(yīng)用的數(shù)據(jù)中心GPU功耗很高,可達(dá)到700W或以上,這對(duì)于芯片來(lái)說(shuō)是一個(gè)很大的壓力,一定程度上也減少了壽命。 如果想要延長(zhǎng)數(shù)據(jù)中心GPU的使用壽命,其中一種方法是降低利用率,然而這也意味著其以更緩慢的速度貶值,并且需要更長(zhǎng)的時(shí)間才能回本,這對(duì)于付出高昂成本的企業(yè)來(lái)說(shuō)是不利的。因此大部分云服務(wù)提供商衡量了收益以后,最常見(jiàn)的做法仍然是以高利用率運(yùn)行。 此外,報(bào)告還根據(jù)數(shù)據(jù)統(tǒng)計(jì)結(jié)果指出,數(shù)據(jù)中心GPU的年化故障率約為9%,3年后大概在27%,一般使用一年后更可能頻繁地出現(xiàn)故障。 |