您現在的位置是:首頁 > 動作武俠首頁動作武俠

大語言模型訓練,該怎麼選擇才能節省成本?

簡介”下面,我們就看看在AI Model Studio提供的四節點CS-2叢集服務上,從零開始訓練GPT-3到底要花多少錢:這裡的“Chinchilla Point”是指以令牌衡量的資料級別,可用於有效訓練模型並收斂至正確答案

龐大的解釋是什麼

大語言模型訓練,該怎麼選擇才能節省成本?

時至今日,人們對於在語言模型和推薦系統的訓練成本或多或少已經有所耳聞。而這兩類工作負載,也成為AI在商業世界中落地的關鍵支點。參考機器學習系統開發商Cerebras Systems和雲計算合作伙伴Cirrascale提供的GPT模型訓練系統租賃服務,我們現在已經拿到了部分實際定價,能夠核算不同規模下GPT模型的具體訓練成本。

這也是我們在AI訓練市場上看到的首批此類公開資料。目前參與這部分業務的廠商只有Cerebras、SambaNova Systems、Graphcore以及英特爾的Habana Labs。其中英特爾的Habana Labs似乎有點堅持不住了,已經表示將在接下來的三年時間內(至2025年),透過削減產品線和人員規模節約80到100億美元的運營成本。

Cerebras和Cirrascale公佈了與Jasper的合作伙伴關係,其中恰好提到他們將在四臺CS-2超級計算機上執行特定GPT AI訓練,並公佈了費用資訊。作為一家AI應用提供商,Jasper正幫助來自各行各業、不同規模的企業部署大語言模型,藉此驅動自身業務。與其他廠商一樣,Jasper之前一直在英偉達GPU上訓練其AI模型,如今希望能找到一種成本更低、速度更快的模型訓練方法,藉此最佳化自身業務收益。

Jasper公司聯合創始人兼CEO Dave Rogenmoser表示,公司目前已經擁有近10萬家付費客戶,他們使用Jasper系統進行博文撰寫、營銷內容設計、技術手冊生成等各類任務。雖然現有大語言模型還無法直接生成完美內容,但只要輸入提示正確,其結果的可用率還是能達到70%左右。最重要的是,其效率極高、速度極快,顯著加快了客戶的內容建立程序。(很多朋友可能沒意識到,大部分人其實並不擅長寫作,寫得也並不快。)

大語言模型訓練,該怎麼選擇才能節省成本?

Jasper公司總部位於奧斯汀,公司成立於2021年1月,並在短短5個月後就籌集到了600萬美元種子輪融資。不久前,Jasper剛剛完成由Insight Partners領投的1。25億美元A輪融資,目前公司估值已達15億美元。除了Jasper這類以大語言模型為基礎的服務型初創企業以外,不少老牌軟體提供商也在研究要如何使用大語言模型增強自家業務。

Cerebras公司聯合創始人兼CEO Andrew Feldman解釋道,“我們認為大語言模型其實是被低估了,當下我們才剛剛感受到它所承載的深遠影響。”作為Wafer-Scale晶圓級製程先驅,Cerebras同時也成為AI訓練硬體領域的新貴。“在硬體層、基礎設施/基礎模型層和應用程式層這三大生態系統區域內,每個區域都有老贏家和新選手。從明年起,我們將看到大語言模型在各個經濟區間全面興起、發揮作用。”

Cerebras公司一直在宣傳其“Andromeda”AI超級計算機。這是一套包含16個CS-2晶圓級系統的組合,總核心量超過1350萬個,可在16位密集矩陣浮點運算中提供120 petaflops算力,稀疏矩陣算力還能進一步提升8倍。但該系統的成本接近3000萬美元,即使是對Jasper這樣的矽谷獨角獸來說,價格也絕對不能算便宜。因此,Cerebras和Cirrascale各自推出了硬體租賃模式,現在開始合作將方案推向市場。

但對於各類工作負載,在特定的規模和資源利用率之下,直接購買CS-2叢集確實可能比租賃更經濟。Jasper就屬於這種情況,具體理由咱們馬上揭曉。

模型驅動內容,內容驅動模型

Jasper的業務擁有兩大驅動因素,正是這兩項因素使其放棄了分散式GPU AI訓練的模型/資料並行耦合方案(需要跨越成千上萬個GPU執行跨資料任務),義無反顧地投入Cerebras的懷抱。

Rogenmoser解釋道,“首先,企業業務需要個性化模型,而且這種需求非常迫切。他們希望模型接受自己的語言訓練,希望能接受知識庫和產品目錄方面的滲透,希望模型能引入品牌形象和元素,真正成為品牌業務的延伸。他們希望模型能夠像銷售團隊那樣說話,並立即跟上新產品的釋出節奏。這樣,當人們跟業務體系接觸時,獲得的就永遠是最新、而且高度統一的感受。他們還希望語言模型能變得越來越好,根據過往資料和效能進行自我最佳化。如果他們寫了一條Facebook廣告語並大獲好評,他們就希望模型能夠把握其中的精髓、之後自動生成更多合心合意的宣傳詞。”

而Cerebras公司產品副總裁Andy Hock還對Jasper的需求做出了更復雜的總結。

“在Jasper之外,我們從市場上觀察到了一種廣泛存在的傾向,即很多企業都希望能為特定業務應用快速研究並開發出大語言模型。但傳統雲基礎設施並不能顯著降低這項工作的門檻。所以人們不禁要問:到底是該從零開始訓練,還是對開源公共檢查點進行調優?最佳方法究竟是什麼?要如何有效利用算力降低商品成本、向客戶提供最佳服務?在使用傳統基礎設施的情況下,這些問題的解決成本往往極為高昂、甚至不切實際。”

正因為如此,Cerebras和CIrrascale才決定共同打造Cerebras AI Model Studio租賃模式,其基於CS-2叢集並執行在兩家公司的基礎設施之上。雖然並未公佈具體部署了多少CS-2裝置,但Cerebras架構確實擁有極強的規模擴充套件能力。到目前為止,192個CS-2節點已經能夠在單一系統映象中模擬多達1。63億個核心。

在雲服務上利用GPU資源訓練大語言模型主要有幾個難點:爭奪可用的GPU資源,將模型和資料拆分到成千上萬個GPU並穩定執行,還要承擔由此帶來的不確定性成本。

大語言模型訓練,該怎麼選擇才能節省成本?

而CerebrastCIrrascale打造的AI Model Studio的核心賣點就是良好的可預測性。其不僅號稱AI模型的訓練速度能夠達到亞馬遜雲科技上GPU例項的8倍,且成本僅相當於二分之一。

Currascale聯合創始人兼CEO PJ GO表示,“我們的客戶中有不少研究實驗室和金融機構,他們都希望訓練自己的模型,並利用自有資料提高模型的準確性。更重要的是,他們希望有個可以預測的報價。他們才不想給雲服務商寫一張金額未填的支票,這樣的模型訓練風險太高了。”

下面,我們就看看在AI Model Studio提供的四節點CS-2叢集服務上,從零開始訓練GPT-3到底要花多少錢:

大語言模型訓練,該怎麼選擇才能節省成本?

這裡的“Chinchilla Point”是指以令牌衡量的資料級別,可用於有效訓練模型並收斂至正確答案。如果向模型灌輸過多資料會導致收益遞減,但如果資料過少則容易出現過度擬合,總之必須適中。

很明顯,模型的大小跟引數/令牌數量成正比。一般來說,可以認為模型體積越大,在同一配置上訓練所消耗的時間就越長。同樣的,對AI模型進行持續訓練以最佳化產出,其實質就是在載入並處理更多資料素材。

當然,光看Cerebras和Cirrascale公佈的表格並不足以說明問題,我們還得對單引數/單令牌成本和日常運營開支做出核算。下圖所示,是我們計算出的語言模型領域三巨頭(GPT NeoX、GPT 70B和GPT 175B)所對應的性格和效能。全部模型均使用16個CS-2節點(而非前面提到的四CS-2節點Andromeda級叢集)進行訓練。

大語言模型訓練,該怎麼選擇才能節省成本?

這裡要解釋一下Jump Factor是個什麼東西。我們想了解的是隨著GPT模型規模的龐大,其訓練時長和價格會如何變化。另外,我們還想知道要如何擴大叢集規模來加快訓練速度。這裡的Jump Factor代表的就是一種GPT模型到下一GPT模型的增量。這裡我們跳過了T-5 11B模型,因為其體量基本相當於GPT-3 6。7B模型。(請注意,表中顯示的谷歌T5 transformer模型並非GPT-3模型,而只是另一種大語言模型。)所以這裡其實是由GPT-3 6。7B跳轉至GPT-3 13B,與T-5 11B無關。

在四節點CS_2叢集上,即使是最低GPT-3引數規模也有點“超重”,後續引數的增加更會令訓練時間大大超出預期。從13億個引數增加到60億個引數,資料總量增加了4。6倍,但訓練時間卻延長達20倍。由67億引數增加到130億引數相當於擴充套件了1。9倍,但訓練時間增加了3。5倍。而使用GPT NeoX時情況則不同,引數增加1。5倍時,其訓練時間僅增加1。2倍。所以模型體量的變化與訓練時長並非精確的線性關係。

相比之下,CS-2裝置的擴充套件則基本保持線性。四節點叢集效能幾乎是雙節點的2倍,八節點又幾乎是四節點的2倍,十六節點幾乎是八節點的2倍。但價格沒能維持這樣的線性遞增,Feldman表示至少在NUMA架構中,價格的增加速度其實是比資源規模更快的。Feldman這樣描述十六CS-2節點與四節點間的效能與價格區別——“4倍效能,5倍價格”。

我們不知道能不能靠演算法省掉一到兩個節點的硬體,藉此將CS-2叢集的使用成本再降低20%,但應該是有戲。但話說回來,既然我們可以用更大的系統在更短時間內完成訓練,又何必在較小的系統上浪費時間呢?除非預算實在卡得太死,否則用錢換時間其實挺划算的。

這就是我們對於大語言模型訓練成本的猜測。很明顯,在四節點叢集上,每組引數的處理成本會隨著模型擴大而有所增加。按照Cerebras和Cirrascale公佈的定價,GPT-3XL模型每100萬個引數的訓練成本僅為1。92美元,但GPT 70B模型的同等引數則為35。71美元。換言之,隨著引數數量增加53。8倍,每100萬個引數的訓練成本上漲了18。6倍。

我們猜測,在四節點CS-2叢集上執行一個5000億引數的GPT模型大概需要一年時間;而在十六節點叢集上,一年時間足夠訓練出包含2萬億引數的模型。或者根據我們的估計,這樣的資源足以從零開始完成13輪GPT 175B模型的訓練——相當於每月一次,還能多一次備用。沒錯,只要花3000萬美元買下自己的Andromeda CS-2超級計算機,你就可以隨時享受這13輪計算配額。而且如果我們對AI Model Studio的計費推測正確,那以租賃方式把GPT 175B模型訓練上13遍大概要花掉1。42億美元。

所以肯定會有人願意選擇租賃;等事實證明模型表現不錯,但還需要進一步擴大引數規模時,他們才會認真考慮購買這個選項。

Top