2月12日,智譜AI正式發(fā)布并開源全新一代旗艦大模型GLM-5。作為國內(nèi)唯一掌握TPU架構(gòu)高性能AI芯片核心技術(shù)并實現(xiàn)量產(chǎn)的企業(yè),中昊芯英同日完成對GLM-5的Day0推理適配。
憑借自研TPU芯片“剎那?”高帶寬近存架構(gòu)與高效張量計算核心的AI原生架構(gòu)優(yōu)勢,GLM-5已在中昊芯英計算平臺上實現(xiàn)高吞吐、低延遲的穩(wěn)定運行。這不僅是雙方生態(tài)合作的里程碑,更是專用算力芯片(TPU)在復(fù)雜工程化場景(Coding&Agent)中性能優(yōu)勢的集中體現(xiàn)。
GLM-5:Agentic Engineering時代最好的開源模型
GLM-5是智譜AI推出的全新基座模型,在真實編程場景體感逼近ClaudeOpus4.5。其參數(shù)規(guī)模擴展至744B,首次集成稀疏注意力機制,是目前開源領(lǐng)域最強的Coding與Agent模型之一。
在全球權(quán)威的ArtificialAnalysis榜單中,GLM-5位居全球第四、開源第一。

(GLM-5在Artificial Analysis榜單全球排名第四、開源第一)
GLM-5在眾多學(xué)術(shù)基準(zhǔn)測試中相比GLM-4.7取得了顯著提升,并在推理、編碼和智能體任務(wù)上取得了全球所有開源模型中的最佳性能,縮小了與前沿模型的差距。

(GLM-5的眾多學(xué)術(shù)基準(zhǔn)測試情況)
Day 0適配之路:TPU賦能Coding與Agent規(guī)?;涞?/strong>
“剎那?”TPU架構(gòu)高性能AI專用算力芯片,由中昊芯英歷時近5年100%自研,擁有完全自主可控的IP核、全自研指令集與計算平臺。在AI大模型計算場景中,算力性能超越海外著名GPU產(chǎn)品近1.5倍,能耗降低30%。同時,通過采用Chiplet技術(shù)與2.5D封裝,實現(xiàn)了同等制程工藝下的性能躍升,并支持1024片芯片片間互聯(lián),實現(xiàn)千卡集群線性擴容,支撐超千億參數(shù)大模型運算需求。

(中昊芯英TPU架構(gòu)高性能AI專用算力芯片)
中昊芯英對GLM全系列模型保持著長期的深度跟蹤與適配優(yōu)化。在此前GLM-4.5&4.7的適配過程中,中昊芯英研發(fā)團隊基于“剎那?”TPU的近存架構(gòu)與高效張量核心,完成了芯片與GLM系列模型架構(gòu)的深度融合,實現(xiàn)了GLM-4.5&4.7在TPU集群上推理吞吐量的顯著提升,更為此次GLM-5的Day0高效適配積累了豐富的底層算子庫與工程經(jīng)驗。
TPU架構(gòu)專為AI/ML而生,通過優(yōu)化計算單元的維度和數(shù)據(jù)傳輸?shù)穆窂剑诖竽P屯评?訓(xùn)練等特定計算范式下,TPU比傳統(tǒng)GPU架構(gòu)能實現(xiàn)更高的能效比和計算密度。在長期以來與GLM系列模型的適配中,“剎那?”芯片的可重構(gòu)多級存儲、近存運算設(shè)計以及流水線式的時空映射,有效提升了GLM大模型計算速度和精度,為模型在復(fù)雜任務(wù)中的運行提供了高效支持。
依托自研GPTPU軟件棧,中昊芯英“剎那?”TPU原生適配PyTorch、vLLM、DeepSpeed、Megatron-LM及SGLang等主流深度學(xué)習(xí)框架與推理引擎,助力用戶實現(xiàn)算法的“零成本”跨平臺遷移。無論是構(gòu)建支持1024片芯片片間互聯(lián)的“泰則?”大規(guī)模計算集群,還是部署面向Coding&Agent場景的高并發(fā)、低延遲在線推理服務(wù),中昊芯英均展現(xiàn)出對標(biāo)主流專用算力產(chǎn)品的卓越能效與穩(wěn)定性,旨在為AIGC時代筑牢堅實、易用的國產(chǎn)專用算力底座。

(中昊芯英TPU芯片AI軟件棧)
從計算單元到集群:軟硬件協(xié)同與核心技術(shù)突破
GLM-5擁有高達744B的超大規(guī)模參數(shù)并首次集成稀疏注意力機制,對底層算力的并發(fā)性、通信帶寬及指令調(diào)度提出了極高的要求。中昊芯英從計算、通信、調(diào)度三層面的技術(shù)突破,系統(tǒng)性構(gòu)筑了從單芯片到千卡集群的軟硬一體高效計算底座:
·算力協(xié)同優(yōu)化:攻克稀疏計算瓶頸
針對GLM-5稠密計算與稀疏激活交錯并存的MoE特性,中昊芯英采用了面向稀疏計算的算力協(xié)同優(yōu)化架構(gòu),在提升算力利用率的同時,確保了模型在處理復(fù)雜Coding任務(wù)時的訓(xùn)練吞吐率與收斂效率。
·自適應(yīng)片上網(wǎng)絡(luò):打通大模型負(fù)載通信高速路
大模型推理的延遲往往受限于片上通信。中昊芯英通過自適應(yīng)片上網(wǎng)絡(luò)通信架構(gòu),引入動態(tài)低延遲路由算法與網(wǎng)絡(luò)狀態(tài)感知機制,有效解決了大模型負(fù)載下的通信效率瓶頸。這使得“剎那?”芯片在驅(qū)動GLM-5執(zhí)行長程Agent任務(wù)時,能夠保持極高的鏈路利用率與通信穩(wěn)定性。
·分布式執(zhí)行環(huán)境:實現(xiàn)多級并行的高效調(diào)度
為了讓GLM-5在服務(wù)器集群上實現(xiàn)線性擴容,中昊芯英構(gòu)建了面向AI指令體系的分布式編譯及執(zhí)行環(huán)境。該技術(shù)支持節(jié)點間、設(shè)備內(nèi)及指令級的多層次并行調(diào)度,通過融合靜態(tài)圖穩(wěn)定性與動態(tài)圖靈活性的混合建圖策略,為GLM-5形成了端到端的高效執(zhí)行路徑,確保了模型在異構(gòu)平臺上的原生高效運行。
GLM-5擅長處理復(fù)雜系統(tǒng)工程與長程Agent任務(wù),中昊芯英的TPU AI芯片與計算平臺為其提供了堅實的算力底座。通過“自研TPU芯片+超算集群+頂級大模型”的深度融合,雙方將共同為客戶提供極具競爭力的AI軟硬件解決方案。
中昊芯英“剎那?”TPU AI芯片對GLM-5的Day0適配,再次印證了TPU芯片“ForAI”的專用架構(gòu)在AIGC時代的先進性。未來,中昊芯英將繼續(xù)堅定TPU技術(shù)路徑,聚焦AI計算本質(zhì),并通過深化與智譜AI等頂尖合作伙伴的生態(tài)共建,為全球客戶提供具備生產(chǎn)力變革能力的AI創(chuàng)新方案。
轉(zhuǎn)自:界面新聞
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀