華為發(fā)布AI推理創(chuàng)新技術(shù)UCM:實(shí)現(xiàn)高吞吐、低時(shí)延推理體驗(yàn),降低每Token推理成本
新浪科技訊 8月12日下午消息,發(fā)布在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,推理吞吐n推華為聯(lián)合中國(guó)銀聯(lián)共同發(fā)布AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),創(chuàng)新實(shí)現(xiàn)高吞吐、技術(shù)低時(shí)延的現(xiàn)高推理體驗(yàn)。
在當(dāng)今數(shù)字化時(shí)代,低時(shí)低AI發(fā)展日新月異。延推驗(yàn)降大模型訓(xùn)練的理體理成熱潮尚未消退,AI推理體驗(yàn)卻已悄然成為AI應(yīng)用的發(fā)布關(guān)鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書指出,AI正從訓(xùn)練向推理的創(chuàng)新結(jié)構(gòu)性轉(zhuǎn)變而快速增長(zhǎng)。在這樣的技術(shù)大背景下,AI推理體驗(yàn)的現(xiàn)高重要性愈發(fā)凸顯。
推理體驗(yàn)直接關(guān)系到用戶與AI交互時(shí)的低時(shí)低感受,包括回答問題的延推驗(yàn)降時(shí)延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等方面。資料顯示,國(guó)外主流模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延5ms),而我國(guó)普遍小于60Tokens/s(時(shí)延50 - 100ms),如何解決推理效率與用戶體驗(yàn)的難題迫在眉睫。
據(jù)介紹,華為此次發(fā)布的AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級(jí)管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。
海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP 責(zé)任編輯:郭栩彤
相關(guān)文章
- △葉爾馬克資料圖)當(dāng)?shù)貢r(shí)間11月28日,烏克蘭總統(tǒng)澤連斯基發(fā)表講話時(shí)稱,總統(tǒng)辦公室主任葉爾馬克已經(jīng)提交了辭職聲明。他還表示,29日將與可能出任總統(tǒng)辦公室負(fù)責(zé)人的人選進(jìn)行磋商。烏克蘭國(guó)家反腐敗局28日在2025-11-30
自動(dòng)播放當(dāng)?shù)貢r(shí)間9月21日下午,美國(guó)總統(tǒng)特朗普出席其政治盟友、知名保守派活動(dòng)人士查理·柯克的追悼會(huì)。美國(guó)億萬富豪埃隆·馬斯克被拍到現(xiàn)身追悼會(huì)現(xiàn)場(chǎng),與特朗普握手并坐在一起交談2025-11-30
日本自民黨新總裁選戰(zhàn)在即 有權(quán)投票黨員數(shù)銳減
日本執(zhí)政黨自由民主黨新總裁選戰(zhàn)將于22日正式打響。自民黨總裁選舉管理委員會(huì)21日發(fā)布的數(shù)據(jù)顯示,有權(quán)參與本屆選舉投票的黨員數(shù)量降至約91.56萬,較上屆選舉減少逾14萬。日本首相、自民黨總裁石破茂7日2025-11-30- 反正,在政治觀點(diǎn)上,或者自身喜好上,似乎可以看到,馬斯克與特朗普仍然有許多暗合之處!文 | 海上客鬧掰數(shù)月以后,美國(guó)總統(tǒng)特朗普與美國(guó)富豪馬斯克竟然又坐到了一起!特朗普左2)與馬斯克左3)握手 圖:環(huán)球2025-11-30
【#懂車帝辟謠特斯拉落水自動(dòng)降窗#】近日有自媒體博主發(fā)布視頻盛贊特斯拉,稱“有這么好的功能卻不主動(dòng)宣傳”。據(jù)其講解,一輛特斯拉落水后,車輛的車窗和后備箱會(huì)自動(dòng)打開供車內(nèi)人員逃生,這是因?yàn)樘厮估诘妆P設(shè)2025-11-30

最新評(píng)論