コンテンツにスキップ
Dev Classmethod Jp Articles Amazon Sagemaker Hyperpod Efa Only

Amazon SageMaker HyperPod が efa-only ネットワークインターフェイスをサポートしたので試してみた

  • URL: https://dev.classmethod.jp/articles/amazon-sagemaker-hyperpod-efa-only
  • 日付: 2026-06-22
  • Tier: Tier 2
  • 要旨: Amazon SageMaker HyperPod が efa-only ネットワークインターフェイスをサポート(2026 年 6 月)。セカンダリ ENI が IP アドレスを持たず、IP 枯渇を防止。ENA vs EFA vs efa-only:ENA は IP 割当・プライマリ使用可・ENI 上限カウント。EFA with ENA は IP 割当・プライマリ使用可・上限カウント。efa-only は IP 割当なし・プライマリ不可・上限カウント。ml.p5.48xlarge 100 ノード:efa だと 3,200 IP・efa-only だと 100 IP のみ消費。EFA ファブリック低レイテンシ通信は efa-only でも有効。

詳細

Amazon SageMaker HyperPod efa-only ネットワークインターフェイスサポート(2026-06)。EFA(Elastic Fabric Adapter)は AI/ML・HPC 向け低レイテンシ通信・EC2 インスタンスアタッチ。従来 efa 構成では複数ネットワークカード(ml.p5.48xlarge 32 枚など)ごとに ENI・各々がプライベート IP 割当・大規模クラスタで IP 枯渇問題。efa-only は セカンダリ ENI が IP アドレス非割当・IP コネクティビティ用プライマリ ENI だけが消費。ml.p5.48xlarge 100 ノード比較:従来efa は 32 IP/node × 100 = 3,200 個・efa-only は 1 IP/node × 100 = 100 個のみ消費(97% 削減)。EFA ファブリック低レイテンシ通信は efa-only でも有効・プライベート IP 割当がないだけで通信品質変わらず。前提条件:複数ネットワークカード(ml.g6e.24xlarge・ml.p4d.24xlarge・ml.p5.48xlarge・ml.trn2.48xlarge など)のインスタンスのみ対応。ネットワークカード 1 枚(ml.p5.4xlarge など)は非対応。設定:ClusterNetworkInterface.InterfaceType を インスタンスグループ単位で efa か efa-only から選択。コントローラーは通常 ENA・コンピュート群だけ efa-only 指定。確認方法:aws ec2 describe-network-interfaces で ENI 確認・efa-only セカンダリ ENI は PrivateIpAddress が None。サブネット IP 消費も確認可(ベースラインからプライマリ分の 1 個のみ減少)。大規模クラスター(P5・P5e 系で多数ネットワークカード)構築時に IP 枯渇対策として有効。AWS ParallelCluster でも 2026-03 に同様アップデート。