INFINITIX - INFINITIX | AI-Stack

INFINITIX

INFINITIXは、この弾性分散学習をAI-Stackにシームレスに統合しており、Horovod、DeepSpeed、Megatron-LM、Slurmといった主要なフレームワークをサポートしています。本記事では、AI-Stack上でHorovodを使って弾性分散学習を実行する手順を、ステップごとにご紹介します。
近年、AI の活用領域が急速に広がる中で、ディープラーニングモデルのスケールも飛躍的に拡大しています。言語モデル、画像認識、生成AIなど、いずれの分野においても学習に必要な計算リソースは爆発的に増大しており、企業や研究機関にとって大きな負担となりつつあります。このような背景の中で注目を集めているのが、「Elastic Distributed Training」(弾性分散トレーニング)という技術です。
HPCとは「ハイパフォーマンス・コンピューティング」の略で、通常のデスクトップPCやワークステーションでは処理しきれない、膨大かつ複雑な計算タスクを処理するために、大量の計算リソースを集約することを指します。
Kubeflowを使用している多くの開発者は、依然としてGPUリソースを分割できないという問題に直面しています。この記事では、InfinitixのixGPUモジュールを使ってKubeflowのGPU分割を行う方法を手取り足取り教えます。
KubeflowはKubernetesベースのオープンソース機械学習プラットフォームとして、近年、機械学習分野でますます普及しています。InfinitixのixGPUモジュールは、開発者がKubeflow上でGPUリソースを自由に分割することを可能にします。
MLOps(Machine Learning Operations)とは、機械学習の開発とIT運用管理を統合した実践手法であり、AIモデルの開発から本番運用、さらには継続的な保守までのライフサイクル全体を自動化・効率化することを目的としています。
An AI data center is a specialized, high-performance branch of

製品の画像検査にAI導入を計画 超硬ドリルやエンドミル、金属加工機器などの製造企業、ユニオンツール。電子回路基板に部品を固定し、配線を行うための微細な穴を開ける「PCBドリル」で世界シェアをリードする。世界を代表する半導体メーカーの高集積なCPU、GPUなどの部品が稼働するためには、同社のドリルが基板に開ける「穴」が不可欠だ。 ユニオンツールの高い技術を支えているのが、製品を製造する装置の開発までを含めた徹底した内製化である。同社の篠﨑亮氏(生産技術部 副部長)は次のように語る。 「当社は“何でも自分たちで作る”という企業文化が根付いています。プリント基板(PCB)メーカーなどのお客さまが求める製品を実現するため、製造装置も自前で開発し、オーダーメイドで製品を製造しています」 GPUやCPU向けのパッケージ基板メーカーをはじめ、中国や北米などに多くの顧客を抱え、カスタム製品を製造する。製品の種類は常時1000点以上、ドリルの刃先などの試作品だけでも1万点を超える。  当然ながら、製造工程では検査が重要な役割を果たす。製品検査は全数検査と抜き取り検査の場合があるが、PCBドリルの刃先は髪の毛よりも細く、肉眼によるチェックが難しいため、作業者が顕微鏡をのぞき込んでチェックする。  この作業は負担が非常に大きく、熟練を要する。将来の人手不足を考えると、人の技量に頼った検査体制を持続するのは難しい。そこで篠﨑氏が所属する生産技術部は、2023年からAI(人工知能)を用いた画像検査の検討を始めた。 「製品をカメラで撮影して、ゴミの付着や汚れなどによる不良品を検出するわけですが、問題はスピードでした。ベテランの作業者なら、複数のドリルを一度の目視でチェックできるため、1秒間に数本は処理できます。同じことを機械にさせようと思うと、AIによって高速で処理して、スループットを上げなければ追いつかないことが分かりました」(篠﨑氏)  こうした課題を解決するため、GPUを活用したAI検査装置の開発に至った。

AIインフラおよびGPUリソース管理分野を牽引するINFINITIX Inc.は、このほど主力製品「AI-Stack」が2025年度のCOMPUTEX国際コンピュータ見本市において、「Best Choice Award – Computer & System部門賞」を獲得しました。GPUリソース調整や高効率計算管理における革新的な技術が高く評価されたもので、同社は5月20日から23日にかけて開催されるCOMPUTEX台北国際コンピュータ見本市に出展し(ブース番号:I0006)、AI基盤の新たな可能性を世界に示します。 「当社はGPUリソースの調整および管理分野で、世界的リーディングカンパニーを自負しています。」INFINITIXのCEOであるチェン・ウェンユー氏は、このたびの受賞について、「AIリソース管理技術の高度化とソフトウェア革新に取り組んできた成果が評価されたもの」と述べました。AI-Stackは、GPUを柔軟に分割・統合して効率的にリソースを運用できる、包括的なAIインフラ管理プラットフォームです。企業がAI開発・導入で直面するGPUリソースのボトルネックを抜本的に解決します。 チェンCEOは同社の技術的優位性について、「当社の革新技術は、単一のGPUを柔軟に複数の仮想ユニットに分割して多様なタスクを並列かつ安定的に処理可能にするほか、複数GPUのクロスノード並列処理によって、GPU使用率を最高90%まで高めます。」と説明します。AI-Stackはまた、直感的なGUI、マルチクラウド管理、オープンソース深層学習ツール、モデル推論サービス、MLOps管理ツール、さらにはAI開発フレームワークや単発・バッチタスクの自動化実行機能など、企業が必要とする全ての機能を搭載しています。