足球比分回查|球探比分足球即时比分新版体|欧赔官网|足球500比分实时,竞彩网,足球足球真时比分比分,竞彩足球赛果网

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

中國工程院院士鄭緯民:從模型服務(wù)走向詞元服務(wù),是智能體時代對基礎(chǔ)設(shè)施的必然要求

2026-04-15 22:15:25

4月15日,第二屆酒仙橋論壇在京開幕。中國工程院院士鄭緯民指出,我國Token消耗兩年間增長千倍,但AI算力基礎(chǔ)設(shè)施無法高效生產(chǎn),陷入高耗能、低產(chǎn)出困局。他認(rèn)為,AI競賽正從MaaS向TaaS躍遷,未來需推動Token服務(wù)標(biāo)準(zhǔn)化、分層化與可調(diào)度化,按業(yè)務(wù)目標(biāo)分層定價與調(diào)度,擴(kuò)大計(jì)算資源池,實(shí)現(xiàn)智能服務(wù)高效低成本生產(chǎn)。

每經(jīng)記者|楊卉    每經(jīng)編輯|畢陸名    

4月15日,由北電數(shù)智主辦的第二屆酒仙橋論壇在京啟幕。

《每日經(jīng)濟(jì)新聞》記者在現(xiàn)場注意到,會上,中國工程院院士、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授鄭緯民提出,我國Token(詞元)消耗在兩年間增長了千倍。

然而,當(dāng)前的AI算力基礎(chǔ)設(shè)施還無法高效生產(chǎn)Token;實(shí)際Token產(chǎn)能受限于系統(tǒng)優(yōu)化不足,陷入高耗能、低產(chǎn)出的困局。

圖片來源:每經(jīng)記者 楊卉攝

在鄭緯民看來,AI競賽的核心標(biāo)準(zhǔn)正在從MaaS(模型即服務(wù))向TaaS(Token即服務(wù))躍遷。未來還需推動Token服務(wù)向標(biāo)準(zhǔn)化、分層化與可調(diào)度化轉(zhuǎn)變,按業(yè)務(wù)目標(biāo)對產(chǎn)能進(jìn)行分層定價與調(diào)度。不能將所有負(fù)載壓在最昂貴的GPU(圖形處理器)資源上,需將大模型參數(shù)合理分配至不同的計(jì)算資源上,實(shí)現(xiàn)計(jì)算、緩存、狀態(tài)保存與數(shù)據(jù)搬運(yùn)的職能分離與各歸其位,將可用計(jì)算資源池大幅擴(kuò)大,將異構(gòu)設(shè)備都用起來,通過優(yōu)化底層架構(gòu)來實(shí)現(xiàn)智能服務(wù)的高效、低成本生產(chǎn)。

“當(dāng)前AI算力基礎(chǔ)設(shè)施無法高效生產(chǎn)詞元”

鄭緯民提到,前幾年大家還都在做大模型,去年開始,風(fēng)口轉(zhuǎn)到了Token。Token究竟是什么?

鄭緯民解釋稱,Token介于硬件與應(yīng)用之間,是AI處理信息的最小語義單元。如“人工智能很強(qiáng)大”這句話,會被分成“人工”“智能”“很”“強(qiáng)大”四個Token。

“你和AI的每一句輸入對話、AI生成的每一段輸出內(nèi)容,都用Token來計(jì)量信息的處理量?!编嵕暶穹Q。此外,Token還是計(jì)算量的映射,是AI運(yùn)行時算力消耗的基本計(jì)量單位,更是AI運(yùn)行的計(jì)價單位。

鄭緯民稱,Token越來越重要的背后,是AI使用方式發(fā)生變化的事實(shí)。

據(jù)他介紹,在生成式AI時代,計(jì)算的消耗主要用于輸入、輸出式的單詞請求。到了智能體時代,智能體需要自行圍繞目標(biāo)持續(xù)執(zhí)行鏈路,實(shí)際消耗的Token數(shù)量遠(yuǎn)超預(yù)期?,甚至達(dá)到“100倍”級別的膨脹。鄭緯民還強(qiáng)調(diào),一旦未來新的智能水平出現(xiàn),Token的消耗還可能會達(dá)到新的水平。

鄭緯民稱,我國Token消耗已經(jīng)從2024年的日均千億漲到了如今的140萬億Token/天,兩年增長了千倍。然而,隨著Token消耗大增,新的問題開始出現(xiàn):當(dāng)前的AI算力基礎(chǔ)設(shè)施還無法高效生產(chǎn)Token;基礎(chǔ)設(shè)施主要服務(wù)于大模型訓(xùn)練,而非實(shí)際應(yīng)用中的持續(xù)性服務(wù);實(shí)際Token產(chǎn)能受限于系統(tǒng)優(yōu)化不足,陷入高耗能、低產(chǎn)出的困局。

在鄭緯民看來,單純將開源模型和開源推理框架做靜態(tài)堆疊,缺乏物理硬件層面的深度優(yōu)化與系統(tǒng)級調(diào)度,昂貴算力就會在鏈路中的各類瓶頸處,如批處理與并發(fā)策略失衡、跨節(jié)點(diǎn)通信與調(diào)度不協(xié)調(diào)、顯存與系統(tǒng)內(nèi)存配置不匹配等被持續(xù)損耗。

按業(yè)務(wù)目標(biāo)對產(chǎn)能進(jìn)行分層定價與調(diào)度

鄭緯民進(jìn)一步指出,MaaS(模型即服務(wù))一直是產(chǎn)業(yè)鏈的重要一環(huán)。但隨著AI進(jìn)入規(guī)模化執(zhí)行后,單純的模型接入已不足以支撐高效能供給。這意味著未來AI競賽的核心標(biāo)準(zhǔn)正在從MaaS(模型即服務(wù))向TaaS(Token即服務(wù))躍遷;從“比拼算力集群規(guī)?!睆氐邹D(zhuǎn)向“比拼每瓦Token生產(chǎn)效率”。

在鄭緯民的設(shè)想里,未來TaaS作為Agent時代生產(chǎn)智能的新型工業(yè)級服務(wù)體系,既能為產(chǎn)業(yè)釋放創(chuàng)新活力、為全國一體化算力網(wǎng)盤活存量資源,更能推動高質(zhì)量智能服務(wù)普惠可及,讓智能生成像水電一樣穩(wěn)定調(diào)度與供給,真正開啟普惠智能時代。

需要注意的是,據(jù)鄭緯民介紹,當(dāng)前的Token服務(wù)其實(shí)是多樣的,有適用于實(shí)時交互、自動駕駛等對延遲敏感場景的極低時延型;有支持長上下文處理,適用于復(fù)雜Agent推理、多輪對話等場景的均衡通用型;還有大規(guī)模離線處理,適用于數(shù)據(jù)清洗、研報生成、模型微調(diào)等批量任務(wù)的高吞吐低成本型。未來,Token服務(wù)還需實(shí)現(xiàn)標(biāo)準(zhǔn)化、分層化與可調(diào)度化,將大模型參數(shù)合理分配至不同的計(jì)算資源上,以降低成本并提高性能。鄭緯民強(qiáng)調(diào),按業(yè)務(wù)目標(biāo)對產(chǎn)能進(jìn)行分層定價與調(diào)度,是Token服務(wù)走向基礎(chǔ)設(shè)施的前提。

談到調(diào)度,鄭緯民還進(jìn)一步指出,要實(shí)現(xiàn)全系統(tǒng)的“異構(gòu)協(xié)同”,就不能將所有負(fù)載壓在最昂貴的GPU資源上,需實(shí)現(xiàn)計(jì)算、緩存、狀態(tài)保存與數(shù)據(jù)搬運(yùn)的職能分離與各歸其位,將可用計(jì)算資源池大幅擴(kuò)大,將異構(gòu)設(shè)備都用起來。

“過去,我們建設(shè)模型;今天,我們要建設(shè)智能供給體系。從模型服務(wù)走向Token服務(wù),是 Agent 時代對基礎(chǔ)設(shè)施的必然要求。只有當(dāng)智能生成像水電一樣,被穩(wěn)定調(diào)度與供給算力之上、Token 為王的普惠智能時代才算真正到來。”鄭緯民稱。


封面圖片來源:每日經(jīng)濟(jì)新聞

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0