チュートリアル：AI-StackでHorovod/DeepSpeed の弾性分散学習を使う方法は？

INFINITIX

Sep 11, 2025

AI-Stackの機能 HPC AI-Stack功能 horovod 彈性分佈式訓練彈性分散学習

お問い合わせ

弾性分散学習 (Elastic Distributed Training) は、AIモデルトレーニングにおいて効率性と柔軟性を高めるために活用される技術です。簡単に言えば、トレーニングが単一のマシンや固定されたコンテナ数に制約されることなく、ニーズに応じて動的に計算リソースを調整・活用できるようにします。

INFINITIXは、この弾性分散学習をAI-Stackにシームレスに統合しており、Horovod、DeepSpeed、Megatron-LM、Slurmといった主要なフレームワークをサポートしています。これにより、企業が直面するリソーススケジューリングのボトルネックを解消し、大規模AIモデルのトレーニングを加速させます。

本記事では、AI-Stack上でHorovodを使って弾性分散学習を実行する手順を、ステップごとにご紹介します。

Horovod と DeepSpeed の操作手順は似ているため、本記事では Horovod を例に解説します。使用前に、【パブリックイメージ一覧】に DeepSpeed/Horovod の実行に適したイメージが用意されていることを必ずご確認ください。

Horovod 分散学習

AI-Stackのユーザーポータルにログインし、「コンテナ管理」をクリックし、「分散型トレーニングクラスタ」を選択します。

「クラスタの作成」ボタンをクリックします。

作成ページでは、「Horovod」を選択し、「クラスタ名」を入力します。ここでは例として tthvd と入力します。

使用したいコンテナ数を設定します。ここでは例として2を入力し、必要なイメージを選択します。

ここで注意すべき点：
- コンテナ数は「2以上」である必要があります（1つの launcher コンテナと、それ以外の worker コンテナを含むため）。
- クラスタの種類に応じて、学習フレームワークを含むイメージを選択する必要があります。

「GPUを有効にする」をクリックし、各コンテナに割り当てるGPU仕様を選択します。ここでは、各コンテナに NVIDIA-P4 GPUを1枚割り当てる設定を選択します。（共有メモリを有効化するかどうかを選択でき、必要に応じて容量を入力することも可能です。）

マウントするストレージを選択します。

全ての設定を完了したら、「送信」をクリックします。1〜2分ほど待つと、2つのコンテナが作成され、「Running」状態になります。それぞれのコンテナには、NVIDIA-P4 GPUが1枚ずつ割り当てられています。

クラスタ作成完了後、サービスから SSH またはより便利な JupyterLab を選択して接続できます。ここでは、JupyterLab を選択します。

JupyterLab から Terminal をクリックします。（SSHで接続するのと同じ意味）

home に戻ると、外部のストレージクラスタからマウントしたボリュームが確認できます。そこには事前に Horovod のテストプログラムを配置してあるため、これを使って使用方法をデモンストレーションします。

以下のコマンドでトレーニングスクリプトを実行します。

horovodrun -np 2 –hostfile /etc/mpi/hostfile python tensorflow2_mist.py

-np 2：–num-processes の省略形で、起動するPythonプロセス数を設定します。ここでは 2 とし、2つのコンテナの計算リソースを使って分散処理を行います。
–hostfile /etc/mpi/hostfile：hostfile には、この分散クラスタ内で利用可能なコンテナや、それぞれに搭載されているGPU数が記載されています。AI-Stackはこのファイルを自動生成・管理します。–hostfile パラメータは、Horovodに対してそのファイルのパスを指定し、記載内容に基づいてGPUリソースを利用できるようにするものです。
python tensorflow2_mnist.py：実行する学習スクリプトです。

今回のトレーニングスクリプトには 1万件のデータがあり、それを2つのコンテナに分配すると、各コンテナには 5,000件ずつ割り当てられてトレーニングが実行されます。

ここまでで、AI-Stackを使ったHorovod分散学習の操作手順を学びました！

次は、コンテナのスケールイン・スケールアウトの方法を紹介します。

AI-Stack で horovod コンテナをスケーリング

コンテナのスケーリングを行うことで、リソースを柔軟かつ効率的に割り当てることができます。トレーニングを加速したいときはワンクリックでコンテナ数を増やし、トレーニングが完了したらすぐにコンテナ数を減らしてリソースを他のタスクへ解放可能です。これにより、開発効率を大幅に向上させるだけでなく、運用コストの最適化にもつながります。

では、実際にAI-Stackでどのようにコンテナをスケーリングするのかを見ていきましょう。

「分散型トレーニングクラスタ」の画面に戻り、先ほど作成した tthvd クラスタにチェックを入れ、「コンテナスケーリング」をクリックします。

右側のパネルで、コンテナ数を変更できます。ここでは、 2個から4個へ変更します。

「確認」ボタンをクリックし、「コンテナ一覧」に戻ると、新しく追加された2つのコンテナが表示されます。1〜2分ほど待つと、状態が「Running」に更新され、これで新しいコンテナが正常にデプロイされたことがわかります。

現在の画面では、tthvdクラスタ内に合計4つのコンテナが稼働していることが確認できます。，

スケールアウト後は、hostfile の内容も自動的に4つのコンテナ分に更新されます。その状態で、先ほど使用したスクリプトをもう一度実行します。今回は 2コンテナから4コンテナに変更してトレーニングを実行します。

horovodrun -np 4 –hostfile /etc/mpi/hostfile python tensorflow2_mist.py

同じく 1万件のデータを使用しますが、今回は 4つのコンテナに分散してトレーニングを実行します。その結果、各コンテナには 2,500件ずつのデータが割り当てられ、全体の学習速度も向上します。

以上で、AI-StackにおけるHorovodの操作手順を紹介しました！

AI-Stackを使えば、データサイエンティストは簡単にコンテナを構築・拡張でき、トレーニングにかかる時間を大幅に削減し、より効率的にトレーニングを進められます。

さらに「弾性分散学習」について詳しく知りたい方は、こちらの記事をご覧ください：弾性分散トレーニング(Elastic Distributed Training)とは？より効率的なAIモデル学習を実現する新しいトレーニング手法

AI-Stackソリューションについてご興味をお持ちの方は、ぜひお気軽にお問合せください！

AIoTとデジタルツイン：製造業におけるAI-Stackの革新的な応用

AI-Stackスマート製造ソリューションは、製造業のデジタルトランスフォーメーションのために設計され、遅延、データセキュリティ、統合の柔軟性といった主要な課題を解決します。エッジコンピューティングとデジタルツイン技術を組み合わせることで、本ソリューションは迅速なモデル訓練、リアルタイム推論、データ処理を実現し、生産効率を向上させ、コストを削減します。

AI特集注目の記事

Dec 2, 2024

企業がAI導入で成功するために！知っておくべき5つの重要ポイント

AIは製造業から金融、医療に至るまで、さまざまな業界を変革しています！AIを導入する前に、目標設定、データ管理、リスク管理、人材育成、インフラ整備の5つの重要なポイントに焦点を当て、成功を目指しましょう！

AIデータセンター導入事例

Dec 2, 2024

台湾のデジタル発展部が台湾AI 計算リソース共有プラットフォームを構築　INFINITIXがスタートアップ企業の成長を支援

台湾のデジタル発展部は、AI普及と計算リソースの活用を目指し、AI計算リソース共有プラットフォームを構築しました。INFINITIXは、このプロジェクトにおいて、自社のAI-Stackプラットフォームを活用し、GPUリソースの効率的な管理と共有を実現しています。この取り組みにより、スタートアップ企業は低コストで高性能なAI開発環境を利用でき、台湾のAIエコシステム全体の発展に支援しています。

チュートリアル：AI-StackでHorovod/DeepSpeed の弾性分散学習を使う方法は？

おすすめ記事

お問い合わせ

Horovod 分散学習

AI-Stack で horovod コンテナをスケーリング

おすすめ記事

AIoTとデジタルツイン：製造業におけるAI-Stackの革新的な応用

企業がAI導入で成功するために！知っておくべき5つの重要ポイント

台湾のデジタル発展部が台湾AI 計算リソース共有プラットフォームを構築　INFINITIXがスタートアップ企業の成長を支援

プラットフォーム

リソース

会社概要

お問合せ

おすすめ記事

お問い合わせ

おすすめ記事

AIoTとデジタルツイン：製造業におけるAI-Stackの革新的な応用

企業がAI導入で成功するために！知っておくべき5つの重要ポイント

台湾のデジタル発展部が台湾AI 計算リソース共有プラットフォームを構築 INFINITIXがスタートアップ企業の成長を支援

台湾のデジタル発展部が台湾AI 計算リソース共有プラットフォームを構築　INFINITIXがスタートアップ企業の成長を支援