AWSのPhysical AI Scaffolding Kit (PASK)を試す① — SageMaker HyperPodでSlurmクラスタを構築する
- URL: https://dev.classmethod.jp/articles/try-aws-pask-01-build-slurm-cluster-with-hyperpod/
- 日付: 2026-06-16
- Tier: Tier 2
- 要旨: AWSのロボット学習(Physical AI)向けサンプルリポジトリ「PASK」のhyperpod/コンポーネントを使い、SageMaker HyperPodでSlurmクラスタを実際に構築した記録。CDKで16分でVPC・NAT・FSx for Lustre・HyperPodクラスタ(ml.c5.large×2)が立ち上がることを確認した。
詳細
PASKはAWS上でPhysical AIモデルのGPU学習環境を提供するCDKサンプル集。2層構成で、環境構築(hyperpod/、physai/、isaacsim-workstation/)と学習サンプル(π0/openpi、NVIDIA Isaac GR00T、Isaac Lab Newton RL)からなる。
構築手順はcdk bootstrap→cdk deploy(約16分)。デフォルトではWorkersGroupが空のためGPUワーカーなしで開始できる設計になっており、GPUインスタンス確保失敗によるデプロイ全体の失敗を防いでいる。
ログインノードへのSSH接続はAWS Session Manager(SSM)のトンネル経由で実現。easy-ssh.shスクリプトを使うが、クラスタ作成直後は公開鍵の自動登録に失敗することがあり、手動でauthorized_keysに追記する必要があった。
sinfoでSlurm稼働を確認後、FSx for Lustre(/fsx/s3link)にファイルを置くとS3バケットに自動同期されることを確認。アイドル状態でも月$355相当(1日$11〜12)の課金が発生するため、使用後はcdk destroyで破棄する運用が前提。次回はGPUワーカー追加と学習サンプル実行を予定。