每個高算力的背后藏著成千上萬的GPU,國產算卡大把機會?
大模型正引發一波新的AI算力荒,從此前的芯片緊缺,上升為AI算力集群級的饑渴癥。
根據產業鏈消息,參數可能僅30億的Sora用4200-10500塊H100訓練了1個月;最新出爐的Llama 3 8B和70B的訓練需要24000多塊H100組成的集群;據稱有1.8萬億參數的GPT-4是在10000-25000張A100上完成了訓練……
OpenAI、Meta等都在用數千卡、甚至萬卡串聯,滿足不斷攀升的大模型訓練需求,也給了我國大模型企業一本可參考的算力賬。
然而,多位GPU算力集群業內人士告訴智東西,當下我國智能算力處于嚴重的供不應求狀態。在GPU全球稀缺背景下,單卡性能已相對沒那么重要,通過集群互聯實現整體算力的最大化,成為解決AI算力荒的必要路徑。
政策也已經緊鑼密鼓地下發。4月24日,北京市經濟和信息化局、北京市通信管理局印發《北京市算力基礎設施建設實施方案(2024—2027年)》,方案提出,規劃建設支撐萬億級參數大模型訓練需求的超大規模智算集群,并對采購自主可控GPU芯片開展智能算力服務的企業予以支持。
產業這邊的動作也沒有落后。國內的頭部算力廠商都已加速布局大規模智算集群,比如云服務巨頭華為云打造了貴安、烏蘭察布、蕪湖3大AI云算力中心,頭部AI芯片公司摩爾線程過去四個月也已在南京、北京亦莊和北京密云完成3座全國產千卡智算中心的落地,助國產大模型產業發展提速。
GPU緊缺導致算力跟不上
大模型獲得突破以來,無論是產業巨頭還是學術界,都在為獲取足夠的算力資源而苦苦掙扎。去年9月,甲骨文董事長埃里森和特斯拉CEO馬斯克在硅谷一家豪華餐廳中向黃仁勛“乞求”GPU的場景還歷歷在目。近日,人工智能領域知名學者、斯坦福大學教授李飛飛再次表達擔憂:高校的AI研究已經被高昂的GPU成本所拖累,逐漸被產業界甩在身后。
Meta可以為模型訓練采購高達35萬個GPU,而斯坦福大學的自然語言處理小組,卻總共只有68個GPU——這種“萬”與“個”的懸殊對比,揭示了算力鴻溝的殘酷現實。為此,李飛飛提出建立“國家級算力與數據集倉庫”的計劃,并稱其重要性堪比“登月投資”。
對我國而言,情況同樣嚴峻。以GPU等AI芯片為代表的稀缺算力資源,優先向少數大型企業供給,高校、中小微企業苦于高昂成本難以參與其中。
在此背景下,超大規模智算中心的建設或許能為解決算力短缺問題提供一個思路,成為我國在全球AI競爭中取得優勢的重要一環。
事實上,我國早已在算力基礎設施上展開積極布局。“東數西算”工程作為國家級的工程項目,在全國范圍內規劃了八大樞紐節點和十大數據集群,并且已經取得顯著進展。
以十大集群之一的韶關集群為例,前不久,其首批上線運營的華南數谷智算中心,一期規劃算力16000P(1P約等于每秒1000萬億次計算速度),規模居粵港澳大灣區首位。預計到2025年初,韶關集群的智能算力規模將達到50000P,成為大灣區、廣東省乃至整個華南地區的最大體量。這些算力資源,不僅可以滿足高校的科研需求,還可以為中小企業等各行各業提供實時、高效的算力支持。
然而,超大規模智算中心的建設并非易事。它需要突破一系列核心技術,其中異構算力的統籌和調度尤為關鍵。異構計算,即多種算力的混合使用,對于實現全國算力中心的大一統和優化資源利用至關重要。在多個數據中心或智算中心互聯互通的復雜場景下,異構計算的挑戰前所未有。傳播內容認知全國重點實驗室研究員張冬明表示,在異構算力的建設和發展過程中,國產AI芯片必將扮演越來越重要的角色。然而就目前來說,受配套軟件、固件支持等生態系統方面的制約,真正能夠有效支撐大模型訓練的國產算力集群并不多。
這些情況已被有關部門敏銳捕捉到。今年年初,工業和信息化部等七部門聯合印發的《關于推動未來產業創新發展的實施意見》中提到:“加快突破GPU芯片、集群低時延互連網絡、異構資源管理等技術,建設超大規模智算中心,滿足大模型迭代訓練和應用推理需求。”
專家認為,在當前階段,大部分算力性能的提升主要來自“系統集成”。既有基于小芯粒技術的芯片級集成,也有基于一卡多芯技術的板卡級集成,還有基于液冷和高互聯的機架級集成。因此,建議在加強單芯片能力的同時,應注重提升AI算力的系統集成能力,從單點突破轉向橫向拓展,對芯粒、液冷、互聯等相關技術持續投入,進一步實現AI算力系統的高算力、高效能、高穩定、高性價比。
當前,智算中心正在成為通用人工智能發展的關鍵。而超大規模智算中心,正在成為智算中心持續演進的未來形態。隨著智算中心的發展成熟,“開箱即用”的智能計算服務有望成為主流。當然,這需要產業界、學術界和政府的通力合作。
在算力資源的統籌配置方面,業內人士建議,政府可以通過行政手段,以統籌建設的方式集中采購,通過“云化”將算力按P銷售,再以“算力券”等的方式補貼中小型科研機構,以促進AI的研究和應用發展。
中國AI算力生態或將發生巨變
綜合考慮美國禁令、當前國內各個公司的產品線布局,研發實力,產品進度等因素,我們認為未來中國AI算力生態或將發生較大改變,由現在的英偉達一家獨大,逐步演變為國際生態(英偉達、AMD、Intel等)和國內生態分庭抗禮的局面。英偉達目前仍然有望憑借良好的CUDA生態,以及較好的集群性能占據一定的市場份額。但是由于其受制于美國禁令,對單卡性能的嚴格限制或將嚴重影響其在中國區的市場份額。
在國內生態中,華為昇騰目前在研發、產品能力以及生態閉環上保持領先,預計將成為國內第一份額;海光信息依托中科曙光和中科院系強大的后盾,具備“芯-端-云”的完整閉環,與華為“鯤鵬+昇騰”產業鏈對應,有望成為重要的國產算力生態。其他獨立第三方例如寒武紀、壁仞科技、摩爾線程、景嘉微等也將充分受益于算力國產化機會,有望憑借性價比優勢分得一定的市場份額。整體看,隨著國產算力的不斷迭代,有望在未來實現彎道超車。
GPGPU技術路線或將取得更大市場份額
最初GPU的設計目標僅是提升計算機對圖像視頻等數據的處理性能,解決CPU的性能瓶頸。但是,隨著GPU在并行計算方面性能優勢的逐步顯現,以及并行計算應用范圍的拓展,GPU演化出兩條分支:一條是傳統意義的GPU,延續專門用于圖形圖像處理用途,內置了視頻編解碼加速引擎、2D加速引擎、3D加速引擎、圖像渲染等專用運算模塊;另一條是作為運算協處理器的GPGPU,增加了專用向量、張量、矩陣運算指令,提升了浮點運算的精度和性能,可以滿足更多計算場景的需要。
隨著GPGPU的技術進步和生態完善,其應用領域不斷拓展,除了傳統的圖形圖像處理外,還涉及了商業計算、大數據處理、人工智能等多個領域。在人工智能領域,其優勢主要體現在:
(1)訓練效率高,加快模型的迭代和優化;
(2)能源消耗低,人工智能的運行成本;
(3)軟件生態豐富,支持主流的人工智能框架,便于已有應用程序的移植和新算法的開發。目前,GPGPU已成為人工智能相關解決方案的主流選擇。
總結:
AIGC帶動GPU需求激增,根據11月22日英偉達發布的2024Q3財報,3季度數據中心業務實現營收145.14億美元,同比增長 278.66%。美國商務部最新出口管制措施實施之前,英偉達數據中心業務2023年總營收預計約450億美元。按照中國區數據中心業務收入占比約為20%-25%,2023年中國區英偉達數據中心業務收入約為90-112.5億美元,中性估計2024年中國區數據中心需求同比增長15%,那么2024年中國區英偉達GPU替代空間約742-927億人民幣。
在國內生態中,華為昇騰目前在研發、產品能力以及生態閉環上保持領先,預計將成為國內第一份額;海光信息依托中科曙光和中科院系強大的后盾,具備“芯-端-云”的完整閉環,與華為“鯤鵬+昇騰”產業鏈對應,有望成為重要的國產算力生態。其他獨立第三方例如寒武紀、壁仞科技、摩爾線程、景嘉微等也將充分受益于算力國產化機會,有望憑借性價比優勢分得一定的市場份額。整體看,隨著國產算力的不斷迭代,有望在未來實現彎道超車。
