當(dāng)?shù)貢r間12月24日,一則英偉達以200億美元收購AI專用芯片初創(chuàng)公司Groq資產(chǎn)的新聞爆料,沸騰了硅谷的圣誕節(jié)。
很快,Groq發(fā)布公告,稱英偉達與Groq達成的交易是“非排他性技術(shù)許可協(xié)議”,英偉達將獲得Groq的芯片技術(shù)授權(quán),且Groq創(chuàng)始人兼CEOJonathanRoss(當(dāng)年谷歌TPU的創(chuàng)始成員)、總裁SunnyMadra及其他核心團隊將加入英偉達,而Groq公司將繼續(xù)獨立運營。這是英偉達有史以來最大規(guī)模的一筆交易,遠超2019年收購Mellanox的70億美元。
這一交易并非孤立事件,而是近年來全球AI市場競爭與格局演進的一個縮影,特別是正在全球范圍內(nèi)加速展開的、圍繞AI專用算力的布局與轉(zhuǎn)向:6月,路透社報道,作為英偉達GPU長期以來的最大采購商之一的OpenAI已開始租用谷歌TPU為其ChatGPT及其他AI產(chǎn)品提供算力支持;10月,谷歌與Anthropic官宣谷歌將向Anthropic供應(yīng)至多100萬塊專用AI芯片TPU及附加的谷歌云服務(wù);11月,TheInformation報道稱Meta正計劃于2027年將谷歌TPU部署至自有數(shù)據(jù)中心,特斯拉也官宣已在車輛控制系統(tǒng)與數(shù)據(jù)中心大規(guī)模部署數(shù)百萬顆自研AI芯片。
頂級AI科技企業(yè)們的動態(tài)無不清晰釋放出一個信號:全球AI算力基礎(chǔ)設(shè)施正逐步走出以GPU架構(gòu)為核心的單一范式,轉(zhuǎn)向以TPU和類TPU為代表的AI專用芯片的新架構(gòu)方向。
“非典型收購”背后:AI專用算力芯片的崛起
盡管交易雙方強調(diào)其“非收購”性質(zhì),但過去兩年里,通過“技術(shù)授權(quán)”的方式實現(xiàn)“人才收購”或獲得“技術(shù)轉(zhuǎn)讓”,已經(jīng)是硅谷科技巨頭們屢用不鮮、既能規(guī)避傳統(tǒng)并購可能面臨的監(jiān)管、又能快速將目標產(chǎn)品/技術(shù)/人才納入麾下的“非典型收購”方法。
2025年,Meta斥資近150億美元收購AI數(shù)據(jù)標注初創(chuàng)公司ScaleAI49%股權(quán),ScaleAI聯(lián)合創(chuàng)始人兼CEO加入Meta,ScaleAI仍保持獨立運營;AMD與加拿大AI芯片創(chuàng)企UntetherAI達成協(xié)議,吸納UntetherAI整個AI硬件與軟件工程團隊;谷歌斥資24億美元(約合人民幣168億元),引進AI代碼生成初創(chuàng)公司W(wǎng)indsurf頂尖人才與技術(shù)。蘋果、微軟和亞馬遜也都在近兩年進行過類似的交易。
而此次英偉達與Groq之間200億美元的巨額交易,英偉達CEO黃仁勛在內(nèi)部郵件中闡釋了其意圖:“我們計劃將Groq的低延遲處理器集成至NVIDIAAI工廠架構(gòu),將該平臺的應(yīng)用范圍擴展至更廣泛的AI推理與實時工作負載領(lǐng)域?!?/p>
公開資料顯示,Groq成立于2016年,是一家專注于AI專用芯片研發(fā)的美國公司,公司估值在今年9月的最新一輪融資中達到69億美元。其芯片產(chǎn)品取名為LPU(語言處理器),專為AI推理場景設(shè)計,號稱運行大語言模型的速度可達GPU的10倍,能耗卻只有十分之一。值得注意的是,Groq創(chuàng)始人JonathanRoss曾是谷歌TPU(張量處理器)芯片項目的創(chuàng)始成員之一。
在Meta被報道計劃大規(guī)模部署谷歌TPU、Anthropic已簽署百萬片TPU采購協(xié)議之后,作為英偉達主要客戶的各大模型廠商,正在積極尋求并計劃實際采用以TPU為代表的新算力源。Groq團隊的TPU背景,使其成為英偉達理解以TPU為代表的AI專用算力芯片的最佳對象。AI專用芯片已展現(xiàn)出通用GPU架構(gòu)難以匹敵的能效優(yōu)勢,且這一差距無法僅通過迭代現(xiàn)有產(chǎn)品線輕易抹平。
TPU芯片:為AI/ML而生的架構(gòu)
GPU最初設(shè)計用于圖形處理,尤其是實時渲染和圖像處理,因此對其中體面結(jié)構(gòu)的矩陣和向量運算做了專門優(yōu)化,后來逐漸發(fā)展成為通用計算設(shè)備(GPGPU)。GPU具有大量結(jié)構(gòu)較為簡單的并行處理單元,適合處理高度并行的任務(wù),如圖形渲染和科學(xué)計算,因此被廣泛應(yīng)用于計算機圖形學(xué)、游戲開發(fā)、視頻編碼/解碼、深度學(xué)習(xí)訓(xùn)練和推理。
TPU是谷歌專為加速機器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)而設(shè)計的專用芯片,特別是針對深度學(xué)習(xí)模型的訓(xùn)練和推理。TPU針對張量運算進行了高度優(yōu)化,單個的脈動陣列架構(gòu)吞吐量和處理效率相較GPU有了更大提升,特別適合于處理矩陣乘法等常見于神經(jīng)網(wǎng)絡(luò)的操作,主要用于機器學(xué)習(xí)和深度學(xué)習(xí)模型的訓(xùn)練和推理,特別是使用TensorFlow框架的任務(wù)。
TPU在架構(gòu)和設(shè)計上的根本性革新,使其成為比GPU更適合進行大量部署或使用的深度學(xué)習(xí)計算單元:
多維度的計算單元提高計算效率:相較于CPU中的標量計算單元和GPU中的矢量計算單元,TPU使用二維乃至更高維度的計算單元完成計算任務(wù),將卷積運算循環(huán)展開的方式實現(xiàn)最大限度的數(shù)據(jù)復(fù)用,降低數(shù)據(jù)傳輸成本,提升加速效率;
更省時的數(shù)據(jù)傳輸和高效率的控制單元:馮諾依曼架構(gòu)帶來的存儲墻問題在深度學(xué)習(xí)任務(wù)當(dāng)中尤為突出,而TPU采用更為激進的策略設(shè)計數(shù)據(jù)傳輸,且控制單元更小,給片上存儲器和運算單元留下了更大的空間;
面向AI的加速,強化AI/ML計算能力:定位準確,架構(gòu)簡單,單線程控制,定制指令集,TPU架構(gòu)在深度學(xué)習(xí)運算方面效率極高,且易于擴展,更適合超大規(guī)模的AI訓(xùn)練計算。
隨著大模型參數(shù)規(guī)模與復(fù)雜度的提升,計算的核心日益集中于大規(guī)模、高并行度的矩陣乘法運算(MatMul)。GPU的架構(gòu)優(yōu)勢在于處理高度并行但模式多變的圖形計算,其通用性帶來了靈活性,但在執(zhí)行AI計算任務(wù)時,其復(fù)雜的控制邏輯、多層級的內(nèi)存系統(tǒng)會帶來不可避免的功耗和效率開銷。而谷歌TPU架構(gòu),則通過脈動陣列架構(gòu),將計算資源高度集中于矩陣運算單元,并以片上高帶寬存儲替代復(fù)雜的數(shù)據(jù)調(diào)度機制,從硬件層面重構(gòu)計算路徑。這種“以算為本”的設(shè)計理念,使其在能效比、吞吐密度和規(guī)模化部署上展現(xiàn)出顯著優(yōu)勢。
AI芯片產(chǎn)業(yè)共識:架構(gòu)創(chuàng)新對突破算力瓶頸的價值
如今,越來越多的世界頂尖科技公司在積極應(yīng)用甚至自研TPU或類TPU架構(gòu)的AI專用芯片:
早在2019年,英特爾就收購了來自以色列的AI芯片制造商 HabanaLabs,并在2024年4月推出了專攻深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)推理的類TPU芯片Gaudi3;且今年11月,外媒報道稱英特爾正在與同樣由谷歌TPU早期團隊創(chuàng)立的美國AI芯片獨角獸 SambaNova 進行初步的收購談判;
2023年11月,微軟在其全球技術(shù)大會Ignite上宣布推出專為Azure云服務(wù)和AI工作負載設(shè)計的ASIC芯片Maia100,預(yù)計2026年正式發(fā)布;
2023年11月底,AWS發(fā)布了為生成式AI和機器學(xué)習(xí)訓(xùn)練設(shè)計的云端AI算力芯片Trainium2;2024年底,AWS與Anthropic官宣共同打造名為ProjectRainier的EC2UltraCluster,將使用數(shù)十萬片Trainium2芯片;
2024年7月,蘋果公司使用谷歌TPU訓(xùn)練其人工智能系統(tǒng)“蘋果智能”(AppleIntelligence)的AI模型AFM,通過2048片TPUv5p芯片來訓(xùn)練擁有27.3億參數(shù)的設(shè)備端模型AFM-on-device,以及8192片TPUv4芯片來訓(xùn)練其為私有云計算環(huán)境量身定制的大型服務(wù)器端模型AFM-server;
2025年6月,據(jù)路透社報道,作為英偉達GPU長期以來的最大采購商之一的OpenAI已開始租用谷歌的TPU為其ChatGPT及其他AI產(chǎn)品提供算力支持;
2025年10月,谷歌與Anthropic共同發(fā)布聲明,宣布谷歌將向Anthropic供應(yīng)至多 100萬塊專用AI芯片TPU以及附加的谷歌云服務(wù),這筆交易價值數(shù)百億美元;
2025年11月,TheInformation報道稱Meta正計劃于2027年將谷歌TPU部署至自有數(shù)據(jù)中心,并最早自2026年起租用谷歌云TPU算力;
2025年11月,特斯拉首席執(zhí)行官馬斯克官宣稱特斯拉已在車輛控制系統(tǒng)與數(shù)據(jù)中心大規(guī)模部署自研AI芯片,數(shù)量達數(shù)百萬顆,支撐起FSD自動駕駛、Dojo超級計算機等核心業(yè)務(wù),公司計劃以“一年一代”的節(jié)奏推進芯片迭代;
······
資本與產(chǎn)業(yè)層面的密集動作,其根源在于AI計算負載結(jié)構(gòu)本身正在發(fā)生深刻變化。越來越多的頭部科技公司開始將目光投向AI專用架構(gòu)。TPU所代表的專用算力路徑,正逐步從“可選方案”演變?yōu)橹蜗乱浑A段AI發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施之一。
國內(nèi)唯一全自研、已量產(chǎn)TPU芯片的公司
核心創(chuàng)始團隊組建于2018年,作為國內(nèi)唯一一家掌握TPU架構(gòu)AI專用芯片核心技術(shù)并實現(xiàn)全自研TPU芯片量產(chǎn)的公司,中昊芯英的創(chuàng)始人及CEO楊龔軼凡曾作為谷歌TPU芯片核心研發(fā)者,深度參與過TPUv2/3/4的設(shè)計與研發(fā)工作。
TPU為AI大模型而生的天然優(yōu)勢架構(gòu),使其在面向AI計算場景時,在同等生產(chǎn)制程下相較于GPU可以擁有 3-5倍的性能提升。以中昊芯英歷時近五年全自研的國內(nèi)首枚已量產(chǎn)TPUAI芯片“剎那?”為例,“剎那?”在處理大規(guī)模AI模型運算時與海外知名GPU芯片相比,計算性能可以超越其近1.5倍,在完成相同計算任務(wù)量時的能耗降低 30%,將價格、算力和能耗綜合測算,“剎那?”的單位算力成本僅為其42%。
全球AI算力產(chǎn)業(yè)的發(fā)展趨勢顯示,當(dāng)計算效率與成本成為AI大模型加速迭代及大規(guī)模商用落地的核心瓶頸時,對底層算力架構(gòu)進行專用化、定制化革新,已成為驅(qū)動產(chǎn)業(yè)前進的重要因素。對于中國AI芯片產(chǎn)業(yè)而言,這一全球性趨勢明確了專注特定賽道、深耕架構(gòu)創(chuàng)新的戰(zhàn)略價值。中昊芯英將繼續(xù)堅定TPU技術(shù)路徑,聚焦AI計算本質(zhì),致力于為市場提供高效、可行的專用算力解決方案。
轉(zhuǎn)自:日照新聞網(wǎng)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀