機械学習の増大する電力需要の抑制

ニュース

ホームページホームページ / ニュース / 機械学習の増大する電力需要の抑制

Sep 07, 2023

機械学習の増大する電力需要の抑制

Alla luce delle crescenti preoccupazioni circa il fabbisogno energetico dei grandi macchinari

による

大規模な機械学習モデルのエネルギー要件に対する懸念の高まりを考慮して、MIT リンカーン研究所とノースイースタン大学の最近の研究では、モデルのトレーニングと推論、および他のいくつかの機能に使用される電力制限 GPU によって得られる節約について調査しました。 AI のエネルギー使用量を削減する技術と方法。

新しい研究では、新しい AI 論文が「エネルギー ステートメント」で終わることも求められています (機械学習研究分野の論文における「倫理的含意」ステートメントの最近の傾向と同様)。

この研究から得られた主な提案は、パワー キャップ (モデルをトレーニングしている GPU に利用可能な電力を制限する) が、特にマスク言語モデリング (MLM) や BERT やその派生などのフレームワークに対して、価値のあるエネルギー節約の利点を提供するということです。

電力使用量の観点から、デフォルトの 250 W 設定 (黒線) の割合で動作する 3 つの言語モデリング ネットワーク。 消費電力を抑制しても、トレーニングの効率や精度が 1 対 1 ベースで制限されることはなく、大規模な場合に顕著な省電力が実現します。 出典: https://arxiv.org/pdf/2205.09646.pdf

ハイパースケール データセットや数十億または数兆のパラメータを持つ新しいモデルにより近年注目を集めている大規模モデルの場合、トレーニング時間とエネルギー使用量のトレードオフとして同様の節約が得られます。

電力制約の下で、より強力な NLP モデルを大規模にトレーニングします。 150W の上限の下での平均相対時間は青色で示され、150W の平均相対エネルギー消費量はオレンジ色で示されています。

これらの大規模な導入では、電力使用量を 150 W に制限すると、デフォルトの最大値 250 W と比較してエネルギー使用量が平均 13.7% 削減され、トレーニング時間も比較的わずかに 6.8% 増加することが研究者らによってわかりました。

さらに研究者らは、ここ数年モデルのトレーニングにかかる​​コストが大きく報道されているにもかかわらず、トレーニング済みのモデルを実際に使用する場合のエネルギーコストははるかに高いと指摘しています*。

「BERT を使用した言語モデリングの場合、パワー キャップによるエネルギー ゲインは、トレーニング時よりも推論実行時の方が著しく大きくなります。 これが他の AI アプリケーションでも同様であれば、研究や産業向けの推論アプリケーションを提供する大規模またはクラウド コンピューティング プラットフォームのエネルギー消費という点で重大な影響を及ぼす可能性があります。」

さらに、おそらく最も物議を醸しているのは、この論文は、冷房コストを節約するために、機械学習モデルの主要なトレーニングを年間の寒い季節と夜間に限定することを提案していることです。

上は、著者のデータセンターにおける 2020 年の各日の PUE 統計です。夏期には顕著で持続的なスパイク/プラトーが見られます。 以下は、1 週間の同じ場所における PUE の時間ごとの平均変動です。内部 GPU 冷却ハードウェアと周囲のデータセンター冷却の両方が動作可能な温度を維持するのに苦労しているため、エネルギー消費量は日中にかけて増加します。

著者らは次のように述べています。

「明らかに、重い NLP ワークロードは通常、冬に実行されるものよりも夏に効率が大幅に低下します。 季節変動が大きいため、計算コストのかかる実験を涼しい月に設定できる場合、このタイミングにより二酸化炭素排出量を大幅に削減できる可能性があります。」

この論文では、モデル アーキテクチャとワークフローの枝刈りと最適化によって可能になる新たな省エネの可能性も認めていますが、著者らはこの手段のさらなる発展を他の取り組みに委ねています。

最後に、著者らは、機械学習分野の新しい科学論文は、研究で行われた研究のエネルギー使用量と、研究で提案されている取り組みを採用することによる潜在的なエネルギーへの影響を宣言する声明で締めくくることが奨励されるか、あるいはおそらく制約されることを提案しています。 。

この論文では、例を挙げて、独自の研究がエネルギーに与える影響について説明しています。

この論文のタイトルは「大いなる力、大いなる責任: 言語モデルのトレーニングのためのエネルギー削減に関する推奨事項」で、MIT リンカーンとノースイースタンの 6 人の研究者によるものです。

Andrew Ng などの著名な運動家が、データのキュレーションがより重要である可能性を示唆しているにもかかわらず、機械学習モデルの計算需要が結果の有用性と並行して増加しているため、現在の ML 文化ではエネルギー消費とパフォーマンスの向上が同一視されています。要素。

2020 年の重要な MIT コラボレーションの 1 つでは、モデルのパフォーマンスが 10 倍向上するには、計算要件が 10,000 倍増加し、それに対応するエネルギー量も必要になると推定されました。

その結果、ここ数年、電力消費量が少なく効果的な ML トレーニングに関する研究が増加しています。 著者らは、この新しい論文は、NLP フレームワーク (GPT シリーズなど) に重点を置き、機械学習のトレーニングと推論に対するパワーキャップの影響を詳しく調べた初めての論文であると主張しています。

推論の質は最も重要な関心事であるため、著者らは最初に発見したことを次のように述べています。

[この] メソッドは、トレーニングされたモデルの予測、つまりタスクでのパフォーマンスの精度には影響しません。 つまり、同じ構造、初期値、およびバッチ データを持つ 2 つのネットワークが、異なる電力上限の下で同じ数のバッチに対してトレーニングされた場合、結果として得られるパラメータは同一となり、それらを生成するために必要なエネルギーのみが異なる可能性があります。」

トレーニングと推論に対する電力上限の影響を評価するために、著者らは、nvidia-smi (システム管理インターフェイス) コマンド ライン ユーティリティと HuggingFace の MLM ライブラリを使用しました。

著者らは、自然言語処理モデル BERT、DistilBERT、Big Bird を MLM 上でトレーニングし、トレーニングと展開時の電力消費を監視しました。

モデルは、100W、150W、200W、250W (NVIDIA V100 GPU のデフォルトまたはベースライン) の 4 つの異なる電力上限を持つ 16 個の V100 GPU で、DeepAI の WikiText-103 データセットに対して 8 つのバッチで 4 エポックに対してトレーニングされました。 。 モデルは、同等のトレーニング評価を保証するために、スクラッチ トレーニングされたパラメーターとランダムな初期値を特徴としていました。

上の最初の画像に見られるように、結果は、トレーニング時間の非線形で好ましい増加において優れたエネルギー節約を示しています。 著者らは次のように述べています。

「私たちの実験では、電力上限を導入すると、トレーニング時間を犠牲にしてエネルギー使用量を大幅に削減できることがわかりました。」

次に、著者らは同じ方法をより要求の厳しいシナリオに適用しました。つまり、複数の GPU にわたる分散構成での MLM を使用した BERT のトレーニングです。これは、資金が豊富でよく知られている FAANG NLP モデルのより一般的な使用例です。

この実験の主な違いは、モデルがトレーニング インスタンスごとに 2 ~ 400 個の GPU を使用する可能性があることです。 電力使用量については同じ制約が適用され、同じタスクが使用されました (WikiText-103)。 結果のグラフについては、上の 2 番目の画像を参照してください。

論文には次のように述べられています。

「各構成の選択を平均すると、電力使用量を 150W に制限すると、デフォルトの最大値と比較して、エネルギー使用量が平均 13.7% 減少し、トレーニング時間が 6.8% 増加しました。 100W 設定では、トレーニング時間が大幅に長くなります (平均 31.4% 長くなります)。 200W 制限は、250W 制限とほぼ同じトレーニング時間に相当しますが、150W 制限よりも控えめなエネルギー節約になります。

著者らは、これらの結果が、GPU アーキテクチャとその上で実行されるアプリケーションの 150W での電力制限をサポートしていると示唆しています。 また、得られたエネルギーの節約はハードウェア プラットフォーム全体に反映されることにも注目し、NVIDIA K80、T4、および A100 GPU の結果を比較するためにテストを再度実行しました。

3 つの異なる NVIDIA GPU で得られた節約。

この論文は、見出しとは裏腹に、最も大きな力を発揮するのはトレーニングではなく推論 (NLP モデルなどの完成したモデルの使用) であることを実証するいくつかの先行研究を引用しており、人気のあるモデルが商品化され、市場に参入することを示唆しています。 NLP 開発の初期段階では、電力使用量が現在よりも大きな問題になる可能性があります。

そこで研究者らは、推論が電力使用量に及ぼす影響を測定し、電力上限の設定が推論のレイテンシに顕著な影響を与えることを発見しました。

250W と比較すると、100W 設定では推論時間が 2 倍必要となり (114% 増加)、消費エネルギーが 11.0% 減少しました。150W では所要時間が 22.7% 増加し、エネルギーが 24.2% 節約されました。200W では必要な時間が 8.2% 増加し、消費電力が 12.0% 減少しました。エネルギー。'

この論文は、データセンターの電力使用効率 (PUE) がピークになる時間帯、つまり冬季と夜間にトレーニングを (明らかな理由から推測ではないにしても) スケジュールできることを示唆しています。

「PUE の低下が予想される時間帯にワークロードをスケジュールできれば、大幅なエネルギー節約が可能になります。 たとえば、実行時間の短いジョブを日中から夜間に移動すると、約 10% 削減される可能性があります。また、より長く高価なジョブ (たとえば、完了までに数週間かかる言語モデルなど) を夏から冬に移動すると、33% 削減される可能性があります。

「個々の研究者が達成できる節約量を予測することは困難ですが、ここで提示された情報は、研究者の作業負荷によって消費される全体的なエネルギーに影響を与える環境要因の重要性を浮き彫りにしています。」

最後に、この論文は、自社開発の処理リソースが大手データセンターやハイレベルのクラウドコンピューティングプレーヤーと同じ効率化対策を実装している可能性は低く、優れた PUE に多額の投資を行っている場所にワークロードを移転することで環境上の利点が得られる可能性があると述べています。

「プライベートなコンピューティング リソースにアクセスできることは便利ですが、この利便性には代償も伴います。 一般に、エネルギーの節約と効果は、大規模な規模ほど容易に得られます。 データセンターとクラウド コンピューティング プロバイダーは、施設の効率化に多大な投資を行っています。

※論文からの関連リンク。

新しい AI 技術により山火事の予測を改善できる

新しい AI がサンゴ礁の健全性を追跡

機械学習、人工知能、ビッグデータに関するライター。個人サイト: martinanderson.ai 連絡先: [email protected] Twitter: @manders_ai

真のパートナーシップを見つける: 電力会社は人工知能ベンダーをどのように評価しているか

NVIDIA の eDiffi 拡散モデルにより、「言葉でペイント」などが可能に

UniTune: Google の代替ニューラル画像編集技術

二重の意味に対する DALL-E 2 のユニークなソリューション

Google の Imagic と Runway の「消去と置換」による AI 支援オブジェクト編集

GOTCHA – ライブディープフェイク用の CAPTCHA システム

機械学習の迫りくるエネルギー獲得 NLP の電力削減 トレーニングではなく「大きな NLP」推論をスリム化することで電力を消費 冬季トレーニングは曇りを保つ