大語言模型訓練，該怎麼選擇才能節省成本？

由至頂頭條發表于動作武俠
2023-01-21

簡介”下面，我們就看看在AI Model Studio提供的四節點CS-2叢集服務上，從零開始訓練GPT-3到底要花多少錢：這裡的“Chinchilla Point”是指以令牌衡量的資料級別，可用於有效訓練模型並收斂至正確答案

龐大的解釋是什麼

時至今日，人們對於在語言模型和推薦系統的訓練成本或多或少已經有所耳聞。而這兩類工作負載，也成為AI在商業世界中落地的關鍵支點。參考機器學習系統開發商Cerebras Systems和雲計算合作伙伴Cirrascale提供的GPT模型訓練系統租賃服務，我們現在已經拿到了部分實際定價，能夠核算不同規模下GPT模型的具體訓練成本。

這也是我們在AI訓練市場上看到的首批此類公開資料。目前參與這部分業務的廠商只有Cerebras、SambaNova Systems、Graphcore以及英特爾的Habana Labs。其中英特爾的Habana Labs似乎有點堅持不住了，已經表示將在接下來的三年時間內（至2025年），透過削減產品線和人員規模節約80到100億美元的運營成本。

Cerebras和Cirrascale公佈了與Jasper的合作伙伴關係，其中恰好提到他們將在四臺CS-2超級計算機上執行特定GPT AI訓練，並公佈了費用資訊。作為一家AI應用提供商，Jasper正幫助來自各行各業、不同規模的企業部署大語言模型，藉此驅動自身業務。與其他廠商一樣，Jasper之前一直在英偉達GPU上訓練其AI模型，如今希望能找到一種成本更低、速度更快的模型訓練方法，藉此最佳化自身業務收益。

Jasper公司聯合創始人兼CEO Dave Rogenmoser表示，公司目前已經擁有近10萬家付費客戶，他們使用Jasper系統進行博文撰寫、營銷內容設計、技術手冊生成等各類任務。雖然現有大語言模型還無法直接生成完美內容，但只要輸入提示正確，其結果的可用率還是能達到70%左右。最重要的是，其效率極高、速度極快，顯著加快了客戶的內容建立程序。（很多朋友可能沒意識到，大部分人其實並不擅長寫作，寫得也並不快。）

Jasper公司總部位於奧斯汀，公司成立於2021年1月，並在短短5個月後就籌集到了600萬美元種子輪融資。不久前，Jasper剛剛完成由Insight Partners領投的1。25億美元A輪融資，目前公司估值已達15億美元。除了Jasper這類以大語言模型為基礎的服務型初創企業以外，不少老牌軟體提供商也在研究要如何使用大語言模型增強自家業務。

Cerebras公司聯合創始人兼CEO Andrew Feldman解釋道，“我們認為大語言模型其實是被低估了，當下我們才剛剛感受到它所承載的深遠影響。”作為Wafer-Scale晶圓級製程先驅，Cerebras同時也成為AI訓練硬體領域的新貴。“在硬體層、基礎設施/基礎模型層和應用程式層這三大生態系統區域內，每個區域都有老贏家和新選手。從明年起，我們將看到大語言模型在各個經濟區間全面興起、發揮作用。”

Cerebras公司一直在宣傳其“Andromeda”AI超級計算機。這是一套包含16個CS-2晶圓級系統的組合，總核心量超過1350萬個，可在16位密集矩陣浮點運算中提供120 petaflops算力，稀疏矩陣算力還能進一步提升8倍。但該系統的成本接近3000萬美元，即使是對Jasper這樣的矽谷獨角獸來說，價格也絕對不能算便宜。因此，Cerebras和Cirrascale各自推出了硬體租賃模式，現在開始合作將方案推向市場。

但對於各類工作負載，在特定的規模和資源利用率之下，直接購買CS-2叢集確實可能比租賃更經濟。Jasper就屬於這種情況，具體理由咱們馬上揭曉。

模型驅動內容，內容驅動模型

Jasper的業務擁有兩大驅動因素，正是這兩項因素使其放棄了分散式GPU AI訓練的模型/資料並行耦合方案（需要跨越成千上萬個GPU執行跨資料任務），義無反顧地投入Cerebras的懷抱。

Rogenmoser解釋道，“首先，企業業務需要個性化模型，而且這種需求非常迫切。他們希望模型接受自己的語言訓練，希望能接受知識庫和產品目錄方面的滲透，希望模型能引入品牌形象和元素，真正成為品牌業務的延伸。他們希望模型能夠像銷售團隊那樣說話，並立即跟上新產品的釋出節奏。這樣，當人們跟業務體系接觸時，獲得的就永遠是最新、而且高度統一的感受。他們還希望語言模型能變得越來越好，根據過往資料和效能進行自我最佳化。如果他們寫了一條Facebook廣告語並大獲好評，他們就希望模型能夠把握其中的精髓、之後自動生成更多合心合意的宣傳詞。”

而Cerebras公司產品副總裁Andy Hock還對Jasper的需求做出了更復雜的總結。

“在Jasper之外，我們從市場上觀察到了一種廣泛存在的傾向，即很多企業都希望能為特定業務應用快速研究並開發出大語言模型。但傳統雲基礎設施並不能顯著降低這項工作的門檻。所以人們不禁要問：到底是該從零開始訓練，還是對開源公共檢查點進行調優？最佳方法究竟是什麼？要如何有效利用算力降低商品成本、向客戶提供最佳服務？在使用傳統基礎設施的情況下，這些問題的解決成本往往極為高昂、甚至不切實際。”

正因為如此，Cerebras和CIrrascale才決定共同打造Cerebras AI Model Studio租賃模式，其基於CS-2叢集並執行在兩家公司的基礎設施之上。雖然並未公佈具體部署了多少CS-2裝置，但Cerebras架構確實擁有極強的規模擴充套件能力。到目前為止，192個CS-2節點已經能夠在單一系統映象中模擬多達1。63億個核心。

在雲服務上利用GPU資源訓練大語言模型主要有幾個難點：爭奪可用的GPU資源，將模型和資料拆分到成千上萬個GPU並穩定執行，還要承擔由此帶來的不確定性成本。

而CerebrastCIrrascale打造的AI Model Studio的核心賣點就是良好的可預測性。其不僅號稱AI模型的訓練速度能夠達到亞馬遜雲科技上GPU例項的8倍，且成本僅相當於二分之一。

Currascale聯合創始人兼CEO PJ GO表示，“我們的客戶中有不少研究實驗室和金融機構，他們都希望訓練自己的模型，並利用自有資料提高模型的準確性。更重要的是，他們希望有個可以預測的報價。他們才不想給雲服務商寫一張金額未填的支票，這樣的模型訓練風險太高了。”

下面，我們就看看在AI Model Studio提供的四節點CS-2叢集服務上，從零開始訓練GPT-3到底要花多少錢：

這裡的“Chinchilla Point”是指以令牌衡量的資料級別，可用於有效訓練模型並收斂至正確答案。如果向模型灌輸過多資料會導致收益遞減，但如果資料過少則容易出現過度擬合，總之必須適中。

很明顯，模型的大小跟引數/令牌數量成正比。一般來說，可以認為模型體積越大，在同一配置上訓練所消耗的時間就越長。同樣的，對AI模型進行持續訓練以最佳化產出，其實質就是在載入並處理更多資料素材。

當然，光看Cerebras和Cirrascale公佈的表格並不足以說明問題，我們還得對單引數/單令牌成本和日常運營開支做出核算。下圖所示，是我們計算出的語言模型領域三巨頭（GPT NeoX、GPT 70B和GPT 175B）所對應的性格和效能。全部模型均使用16個CS-2節點（而非前面提到的四CS-2節點Andromeda級叢集）進行訓練。

這裡要解釋一下Jump Factor是個什麼東西。我們想了解的是隨著GPT模型規模的龐大，其訓練時長和價格會如何變化。另外，我們還想知道要如何擴大叢集規模來加快訓練速度。這裡的Jump Factor代表的就是一種GPT模型到下一GPT模型的增量。這裡我們跳過了T-5 11B模型，因為其體量基本相當於GPT-3 6。7B模型。（請注意，表中顯示的谷歌T5 transformer模型並非GPT-3模型，而只是另一種大語言模型。）所以這裡其實是由GPT-3 6。7B跳轉至GPT-3 13B，與T-5 11B無關。

在四節點CS_2叢集上，即使是最低GPT-3引數規模也有點“超重”，後續引數的增加更會令訓練時間大大超出預期。從13億個引數增加到60億個引數，資料總量增加了4。6倍，但訓練時間卻延長達20倍。由67億引數增加到130億引數相當於擴充套件了1。9倍，但訓練時間增加了3。5倍。而使用GPT NeoX時情況則不同，引數增加1。5倍時，其訓練時間僅增加1。2倍。所以模型體量的變化與訓練時長並非精確的線性關係。

相比之下，CS-2裝置的擴充套件則基本保持線性。四節點叢集效能幾乎是雙節點的2倍，八節點又幾乎是四節點的2倍，十六節點幾乎是八節點的2倍。但價格沒能維持這樣的線性遞增，Feldman表示至少在NUMA架構中，價格的增加速度其實是比資源規模更快的。Feldman這樣描述十六CS-2節點與四節點間的效能與價格區別——“4倍效能，5倍價格”。

我們不知道能不能靠演算法省掉一到兩個節點的硬體，藉此將CS-2叢集的使用成本再降低20%，但應該是有戲。但話說回來，既然我們可以用更大的系統在更短時間內完成訓練，又何必在較小的系統上浪費時間呢？除非預算實在卡得太死，否則用錢換時間其實挺划算的。

這就是我們對於大語言模型訓練成本的猜測。很明顯，在四節點叢集上，每組引數的處理成本會隨著模型擴大而有所增加。按照Cerebras和Cirrascale公佈的定價，GPT-3XL模型每100萬個引數的訓練成本僅為1。92美元，但GPT 70B模型的同等引數則為35。71美元。換言之，隨著引數數量增加53。8倍，每100萬個引數的訓練成本上漲了18。6倍。

我們猜測，在四節點CS-2叢集上執行一個5000億引數的GPT模型大概需要一年時間；而在十六節點叢集上，一年時間足夠訓練出包含2萬億引數的模型。或者根據我們的估計，這樣的資源足以從零開始完成13輪GPT 175B模型的訓練——相當於每月一次，還能多一次備用。沒錯，只要花3000萬美元買下自己的Andromeda CS-2超級計算機，你就可以隨時享受這13輪計算配額。而且如果我們對AI Model Studio的計費推測正確，那以租賃方式把GPT 175B模型訓練上13遍大概要花掉1。42億美元。

所以肯定會有人願意選擇租賃；等事實證明模型表現不錯，但還需要進一步擴大引數規模時，他們才會認真考慮購買這個選項。

上一篇：雷神最好的夥伴——九條裟羅養成攻略：細節很重要，萌新沒少被坑

下一篇：御三家正面對決！網友票選2023年度遊戲:塞爾達穩了？

您現在的位置是：首頁 > 動作武俠首頁 動作武俠

大語言模型訓練，該怎麼選擇才能節省成本？

相關文章