浪潮推出元腦CPU推理服務(wù)器,可運行DeepSeek和千問QwQ等新一代大推理模型。元腦CPU推理服務(wù)器NF8260G7和NF8480G7設(shè)計采用4顆高性能通用CPU和多通道內(nèi)存系統(tǒng),通過張量并行策略和AMX加速技術(shù),單機即可運行DeepSeek-R1 32B和QwQ-32B推理模型,單用戶性能超20 tokens/s。
元腦CPU推理服務(wù)器NF8260G7和NF8480G7基于通用處理器架構(gòu)進行軟硬協(xié)同優(yōu)化,已經(jīng)完成與DeepSeek-R1 32B和QwQ-32B等大模型的深度適配和優(yōu)化。元腦CPU推理服務(wù)器通過采用張量并行策略和AMX加速技術(shù),業(yè)界主流企業(yè)級大模型推理服務(wù)框架,實現(xiàn)多處理器并行計算,并使用AWQ(激活感知權(quán)重量化)技術(shù),進一步提升推理解碼性能,成功實現(xiàn)單用戶20tokens/s的性能,為企業(yè)的AI大模型部署應(yīng)用帶來流暢體驗。
面對CPU服務(wù)器部署大模型面臨算力和帶寬方面的挑戰(zhàn),元腦CPU推理服務(wù)器采用了多項創(chuàng)新技術(shù)。