浪潮信息劉軍：AI產(chǎn)業(yè)不降本難盈利，1元錢/每百萬Token的成本還遠(yuǎn)遠(yuǎn)不夠！

2025-12-25 14:16 來源: 商業(yè)新聞影響力評(píng)估指數(shù)：17.75

北京2025年12月25日 /美通社/ -- 當(dāng)前全球AI產(chǎn)業(yè)已從模型性能競賽邁入智能體規(guī)?；涞氐?生死競速"階段，"降本" 不再是可選優(yōu)化項(xiàng)，而是決定AI企業(yè)能否盈利、行業(yè)能否突破的核心命脈。在此大背景下，浪潮信息推出元腦HC1000超擴(kuò)展AI服務(wù)器，將推理成本首次擊穿至1元/每百萬token。這一突破不僅有望打通智能體產(chǎn)業(yè)化落地"最后一公里"的成本障礙，更將重塑AI產(chǎn)業(yè)競爭的底層邏輯。

浪潮信息首席AI戰(zhàn)略官劉軍強(qiáng)調(diào)，當(dāng)前1元/每百萬token的成本突破僅是階段性勝利，面對未來token消耗量指數(shù)級(jí)增長、復(fù)雜任務(wù)token需求激增數(shù)十倍的必然趨勢，現(xiàn)有成本水平仍難支撐AI的普惠落地。未來，AI要真正成為如同 "水電煤" 般的基礎(chǔ)資源，token成本必須在現(xiàn)有基礎(chǔ)上實(shí)現(xiàn)數(shù)量級(jí)跨越，成本能力將從"核心競爭力"進(jìn)一步升級(jí)為"生存入場券"，直接決定AI企業(yè)在智能體時(shí)代的生死存亡。

浪潮信息首席AI戰(zhàn)略官劉軍

智能體時(shí)代，token成本就是競爭力

回顧互聯(lián)網(wǎng)發(fā)展史，基礎(chǔ)設(shè)施的"提速降費(fèi)"是行業(yè)繁榮的重要基石。從撥號(hào)上網(wǎng)以Kb計(jì)費(fèi)，到光纖入戶后百兆帶寬成為標(biāo)配，再到4G/5G時(shí)代數(shù)據(jù)流量成本趨近于零——每一次通信成本的顯著降低，都推動(dòng)了如視頻流媒體、移動(dòng)支付等全新應(yīng)用生態(tài)的爆發(fā)。

當(dāng)前的AI時(shí)代也處于相似的臨界點(diǎn)，當(dāng)技術(shù)進(jìn)步促使token單價(jià)下滑之后，企業(yè)得以大規(guī)模地將AI應(yīng)用于更復(fù)雜、更耗能的場景，如從早期的簡短問答，到如今支持超長上下文、具備多步規(guī)劃與反思能力的智能體……這也導(dǎo)致單任務(wù)對token的需求已呈指數(shù)級(jí)增長。如果token成本下降的速度跟不上消耗量的指數(shù)增長，企業(yè)將面臨更高的費(fèi)用投入。這昭示著經(jīng)濟(jì)學(xué)中著名的"杰文斯悖論"正在token經(jīng)濟(jì)中完美重演。

來自多方的數(shù)據(jù)也有力佐證了token消耗量的指數(shù)級(jí)增長趨勢?；鹕揭孀钚屡兜臄?shù)據(jù)顯示，截至今年12月，字節(jié)跳動(dòng)旗下豆包大模型日均token使用量突破50萬億，較去年同期增長超過10倍，相比2024年5月剛推出時(shí)的日均調(diào)用量增長達(dá)417倍；谷歌在10月披露，其各平臺(tái)每月處理的token用量已達(dá)1300萬億，相當(dāng)于日均43.3萬億，而一年前月均僅為9.7萬億。

谷歌公布其token處理量變化

當(dāng)使用量達(dá)到"百萬億token/月"的量級(jí)時(shí)，哪怕每百萬token成本只下降1美元，也可能帶來每月1億美元的成本差異。劉軍認(rèn)為："token成本就是競爭力，它直接決定了智能體的盈利能力。要讓AI真正進(jìn)入規(guī)?；栈蓦A段，token成本必須在現(xiàn)有基礎(chǔ)上繼續(xù)實(shí)現(xiàn)數(shù)量級(jí)的下降。"

深挖token成本"暗箱"：架構(gòu)不匹配是核心瓶頸

當(dāng)下，全球大模型競賽從"盲目堆算力"轉(zhuǎn)向"追求單位算力產(chǎn)出價(jià)值"的新階段。單位算力產(chǎn)出價(jià)值受到能源價(jià)格、硬件采購成本、算法優(yōu)化、運(yùn)營成本等多種因素的影響，但不可否認(rèn)的是，現(xiàn)階段token成本80%以上依然來自算力支出，而阻礙成本下降的核心矛盾，在于推理負(fù)載與訓(xùn)練負(fù)載截然不同，沿用舊架構(gòu)會(huì)導(dǎo)致算力、顯存與網(wǎng)絡(luò)資源難以同時(shí)最優(yōu)，造成嚴(yán)重的"高配低效"。

一是算力利用率(MFU)的嚴(yán)重倒掛。訓(xùn)練階段MFU可達(dá)50%以上，但在推理階段，特別是對于追求低延遲的實(shí)時(shí)交互任務(wù)，由于token的自回歸解碼特性，在每一輪計(jì)算中，硬件必須加載全部的模型參數(shù)，卻只為了計(jì)算一個(gè)token的輸出，導(dǎo)致昂貴的GPU大部分時(shí)間在等待數(shù)據(jù)搬運(yùn)，實(shí)際MFU往往僅為5%-10%。這種巨大的算力閑置是成本高企的結(jié)構(gòu)性根源。

二是"存儲(chǔ)墻"瓶頸在推理場景下被放大。在大模型推理中，隨著上下文長度的增加，KV Cache呈指數(shù)級(jí)增長。這不僅占用了大量的顯存空間，還導(dǎo)致了由于訪存密集帶來的高功耗。這種存算分離不僅帶來數(shù)據(jù)遷移功耗和延遲，還必須配合使用價(jià)格高昂的HBM，已經(jīng)成為阻礙token成本下降的重要瓶頸。

三是網(wǎng)絡(luò)通信與橫向擴(kuò)展代價(jià)愈發(fā)高昂。當(dāng)模型規(guī)模突破單機(jī)承載能力時(shí)，跨節(jié)點(diǎn)通信成為新瓶頸。傳統(tǒng)RoCE或InfiniBand網(wǎng)絡(luò)的延遲遠(yuǎn)高于芯片內(nèi)部的總線延遲，通信開銷可能占據(jù)總推理時(shí)間的30%以上，導(dǎo)致企業(yè)被迫通過堆砌更多資源來維持響應(yīng)速度，推高了總擁有成本(TCO)。

對此，劉軍指出，降低token成本的核心不是"把一臺(tái)機(jī)器做得更全"，而是圍繞目標(biāo)重構(gòu)系統(tǒng)：把推理流程拆得更細(xì)，支持P/D分離、A/F分離、KV并行、細(xì)粒度專家拆分等計(jì)算策略，讓不同計(jì)算模塊在不同卡上按需配置并發(fā)，把每張卡的負(fù)載打滿，讓"卡時(shí)成本"更低、讓"卡時(shí)產(chǎn)出"更高。

基于全新超擴(kuò)展架構(gòu)，元腦HC1000實(shí)現(xiàn)推理成本首次擊破1元/每百萬token

當(dāng)前主流大模型的token成本依然高昂。以輸出百萬token為例，Claude、Grok等模型的價(jià)格普遍在10-15美元，國內(nèi)大模型雖然相對便宜，也多在10元以上。在天文數(shù)字級(jí)別的調(diào)用量下，如此高的token成本讓大規(guī)模商業(yè)化應(yīng)用面臨嚴(yán)峻的ROI挑戰(zhàn)。要打破成本僵局，必須從計(jì)算架構(gòu)層面進(jìn)行根本性重構(gòu)，從而大幅提升單位算力的產(chǎn)出效率。

主流LLM的百萬token價(jià)格 (注：9月26日(AICC2025大會(huì)當(dāng)日)數(shù)據(jù)，9月29日DeepSeek發(fā)布V3.2 Exp價(jià)格降為3元/每百萬Token)

為此，浪潮信息推出元腦HC1000超擴(kuò)展AI服務(wù)器。該產(chǎn)品基于全新設(shè)計(jì)的全對稱DirectCom極速架構(gòu)，采用無損超擴(kuò)展設(shè)計(jì)，可高效聚合海量本土AI芯片，支持極大推理吞吐量，推理成本首次擊破1元/每百萬token，為智能體突破token成本瓶頸提供極致性能的創(chuàng)新算力系統(tǒng)。

元腦HC1000超擴(kuò)展AI服務(wù)器

劉軍表示："我們看到原來的AI計(jì)算是瞄著大而全去建設(shè)的，五臟俱全，各種各樣的東西都在里面。但是當(dāng)我們聚焦降低token成本這一核心目標(biāo)之后，我們重新思考系統(tǒng)架構(gòu)設(shè)計(jì)，找到系統(tǒng)瓶頸，重構(gòu)出一個(gè)極簡設(shè)計(jì)的系統(tǒng)。"

元腦HC1000創(chuàng)新設(shè)計(jì)了DirectCom極速架構(gòu)，每計(jì)算模組配置16顆AIPU，采用直達(dá)通信設(shè)計(jì)，解決傳統(tǒng)架構(gòu)的協(xié)議轉(zhuǎn)換和帶寬爭搶問題，實(shí)現(xiàn)超低延遲；計(jì)算通信1:1均衡配比，實(shí)現(xiàn)全局無阻塞通信；全對稱的系統(tǒng)拓?fù)湓O(shè)計(jì)，可以支持靈活的PD分離、AF分離方案，按需配置計(jì)算實(shí)例，最大化資源利用率。

全對稱DirectCom極速架構(gòu)

同時(shí)，元腦HC1000支持超大規(guī)模無損擴(kuò)展，DirectCom架構(gòu)保障了計(jì)算和通信均衡，通過算網(wǎng)深度協(xié)同、全域無損技術(shù)實(shí)現(xiàn)推理性能1.75倍提升，并且通過對大模型的計(jì)算流程細(xì)分和模型結(jié)構(gòu)解耦，實(shí)現(xiàn)計(jì)算負(fù)載的靈活按需配比，單卡MFU最高可提升5.7倍。

超大規(guī)模無損擴(kuò)展

此外，元腦HC1000通過自適應(yīng)路由和智能擁塞控制算法，提供數(shù)據(jù)包級(jí)動(dòng)態(tài)負(fù)載均衡，實(shí)現(xiàn)KV Cache傳輸和All to All通信流量的智能調(diào)度，將KV Cache傳輸對Prefill、Decode計(jì)算實(shí)例影響降低5-10倍。

劉軍強(qiáng)調(diào)，當(dāng)前"1元/每百萬token"還遠(yuǎn)遠(yuǎn)不夠，面對未來token消耗量的指數(shù)級(jí)增長，若要實(shí)現(xiàn)單token成本的持續(xù)、數(shù)量級(jí)下降，需要推動(dòng)計(jì)算架構(gòu)的根本性革新。這也要求整個(gè)AI產(chǎn)業(yè)的產(chǎn)品技術(shù)創(chuàng)新，要從當(dāng)前的規(guī)模導(dǎo)向轉(zhuǎn)為效率導(dǎo)向，從根本上重新思考和設(shè)計(jì)AI計(jì)算系統(tǒng)，發(fā)展AI專用計(jì)算架構(gòu)，探索開發(fā)大模型芯片，推動(dòng)算法硬件化的專用計(jì)算架構(gòu)創(chuàng)新，實(shí)現(xiàn)軟硬件深度優(yōu)化，這將是未來的發(fā)展方向。

[美通社]

【免責(zé)聲明】本文僅代表作者個(gè)人觀點(diǎn)，與云財(cái)經(jīng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，云財(cái)經(jīng)對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

云財(cái)經(jīng)智能匹配相關(guān)概念

人工智能概念股：

中威電子(300270) ST英飛拓(002528) 音飛儲(chǔ)存(603066) 中科信息(300678) 熙菱信息(300588)

新聞標(biāo)題	時(shí)間	消息來源
廣州：支持人工智能等技術(shù)和游戲電競產(chǎn)業(yè)深度融合，圍繞游戲領(lǐng)域“卡脖子”技術(shù)開展研發(fā)	`今天 13:09`	云財(cái)經(jīng)
鎢價(jià)呈現(xiàn)暫穩(wěn)橫盤態(tài)勢廢鎢市場出現(xiàn)波動(dòng)	`今天 13:08`	云財(cái)經(jīng)
國家電網(wǎng)2025年固定資產(chǎn)投資將超6500億元，創(chuàng)歷史新高	`今天 12:10`	云財(cái)經(jīng)
俄羅斯駐華大使：俄中幾乎完全使用盧布和人民幣結(jié)算	`今天 10:15`	云財(cái)經(jīng)
國家發(fā)改委：推進(jìn)“十四五”已復(fù)函的“沙戈荒”大基地建成投產(chǎn) 新增謀劃一批外送為主的大基地	`今天 10:14`	云財(cái)經(jīng)
圣暉集成：股價(jià)異常波動(dòng)，提示投資風(fēng)險(xiǎn)	`12-24 18:19`	云財(cái)經(jīng)

黑人视频在线播放|欧美韩俄黄片在线|亚洲国产αv首页|久草欧美精选视频|亚洲孕妇一级毛片|国产黄色网址美女|成人影院亚洲色图|日韩女优久草视频|五月天激情av五月丁香久久婷婷|国产黄骗免费专区日韩无码视频流出