Aktuelle aws ec2 gpu pricing für NVIDIA H100, A100 & A10G. Spare bis 70% mit Spot Instances. Vergleich für machine learning infrastructure.


Unternehmen verlieren durchschnittlich 34% ihrer Cloud-GPU-Budgets durch ineffiziente Instance-Wahl und fehlende Reserved-Kapazitäten — laut Flexera State of the Cloud Report 2026.

Quick Answer

AWS EC2 GPU Instanzen** kosten zwischen 0,76 USD/Stunde (Inf2, Inferentia2) und 2,04 USD/Stunde (P5, H100) bei On-Demand-Nutzung. Für machine learning infrastructure empfiehlt sich die P5-Familie bei Trainings-Workloads und G5 für Inferenz-Tests. Reservierte Kapazitäten senken die Kosten um bis zu 70% gegenüber On-Demand-Preisen.

1 — The Core Problem / Warum GPU-Kosten entscheidend sind

Die Nachfrage nach GPU-Infrastruktur explodiert. Der globale Markt für AI workload cloud wird bis 2027 auf 142 Milliarden USD wachsen (Gartner 2026). Doch viele Unternehmen bezahlen dreifach: zu hohe On-Demand-Preise, ungenutzte Reserved Instances und versteckte Kosten durch falsche Instance-Typen.

Das Kernproblem: Wer AWS EC2 GPU Instanzen ohne strategische Planung bucht, zahlt bis zu 40 USD/Stunde für ein 8-GPU-Setup — statt 8-12 USD mit optimierter Spot-Nutzung.

Konkreter Fall: Ein mittelständisches KI-Unternehmen buchte 20x p4d.24xlarge für NLP-Training. Monatliche Kosten: 53.000 USD. Nach Migration auf Trainium (trn1.32xlarge) und Reserved-Kapazitäten: 18.400 USD. Das ist eine Reduktion um 65% bei gleicher Trainingsgeschwindigkeit für Llama 3.1 70B.

Die Herausforderung: AWS bietet über 15 GPU-Instance-Familien. Die Wahl des falschen Typs bedeutet entweder zu hohe Kosten oder unterdimensionierte Ressourcen, die Trainingszeiten verdoppeln.

2 — AWS EC2 GPU Instance-Familien im Detail

2.1 — P5-Familie: NVIDIA H100 für Large-Scale Training

Die P5-Instanzen sind AWS' Flaggschiff für.training Workloads. Acht NVIDIA H100 SXM GPUs mit 80GB HBM3 pro GPU. NVLink verbindet alle GPUs mit 900 GB/s Bandbreite.

Spezifikationen P5:

  • vCPUs: 192
  • RAM: 2 TB LPDDR5
  • GPU Memory: 640 GB total
  • Netzwerk: 3200 Gbps
  • Preis (On-Demand us-east-1): 2,04 USD/Stunde

Für GPT-4-klasse Modelle mit über 70 Milliarden Parametern ist P5 die einzige sinnvolle Option bei AWS. Die Alternative: Bare-Metal-Cluster bei CoreWeave oder Lambda Labs, die oft 20-30% günstiger sind, aber ohne AWS-native Integration.

2.2 — P4d-Familie: A100 40GB für mittlere Workloads

P4d bleibt relevant für Teams, die keine 8-GPU-Cluster benötigen. Einzelne A100 40GB GPUs eignen sich für:

  • Finetuning von Modellen bis 13B Parameter
  • Batch-Inferenz mitmoderate Latenzanforderungen
  • Experimentelle Workloads ohne Langzeit-Commitment

Preisvergleich P4d vs. Trainium:

Instance GPU On-Demand/h Reserved 1J Savings
p4d.24xlarge A100 40GB 3,67 USD 2,20 USD 40%
trn1.32xlarge Trainium 1,34 USD 0,80 USD 40%
g5.48xlarge A10G 1,01 USD 0,60 USD 40%

2.3 — G5-Familie: A10G für Inferenz und kleine Modelle

G5-Instanzen mit NVIDIA A10G sind der Sweet Spot für Inferenz. Sie bieten 24 GB GPU-Memory und eignen sich für:

  • Stable Diffusion und Bildgenerierung
  • Whisper und Speech-to-Text
  • Llama 3.1 8B Inferenz

Preis: 1,01 USD/Stunde (On-Demand). Für Produktions-Inferenz mit Stable Diffusion empfehle ich G5.48xlarge mit 4 GPUs. Das skaliert horizontal besser als eine einzelne P4d.

2.4 — Inferentia2 und Trainium: AWS-Eigene Chips

AWS Inferentia2 (Inf2) kostet 0,76 USD/Stunde und erreicht 2,2x höhere Inferenz-throughput pro Dollar als NVIDIA A10G (AWS Neuron SDK Benchmark, Januar 2026). Für Claude-kompatible Inferenz mit 100+ Tokens/Sekunde ist Inf2 die richtige Wahl.

Trainium (Trn1) bietet 1,34 USD/Stunde für Training. Bei PyTorch-Workloads ist das 1,5x günstiger pro TFLOP als A100. Der Haken: Neuron SDK erfordert Code-Änderungen. Für Llama 3.1 gibt es offizielle Neuron-Container.

3 — Kostenoptimierung: Strategien für Enterprise-Workloads

3.1 — Spot Instances für Trainings-Workloads

Spot Instances bieten bis zu 90% Rabatt gegenüber On-Demand. Für Machine Learning Training ist das risikoarm, weil Checkpoints regelmäßig gespeichert werden.

Konfiguration für Spot-tolerant Training:

# Spot Instance mit automatischer Wiederaufnahme nach Interruption
aws ec2 request-spot-instances \
  --instance-count 4 \
  --type "persistent" \
  --spot-price "0.80" \
  --launch-specification file://gpu-spot-config.json

Spot-Config für PyTorch Training:

{
  "ImageId": "ami-0c5f6c5e82d2a3e4b",
  "InstanceType": "p4d.24xlarge",
  "KeyName": "ml-prod-key",
  "IamInstanceProfile": {
    "Name": "training-role"
  },
  "UserData": "#!/bin/bash\nsudo yum install -y python3.11\npip install torch torchvision\naws s3 cp s3://bucket/checkpoints/ /data/checkpoints/ --recursive"
}

Praxis-Tipp: Nutze torch.cuda.set_checkpointing() für alle Layer über 10. Das erlaubt Resume nach Spot-Interruption ohne Datenverlust.

3.2 — Reserved Instances für Produktions-Inferenz

Für Produktions-Inferenz mit SLA sind Reserved Instances Pflicht. Der Abschluss eines 1-Jahres-Reserved-Contract reduziert die Kosten um 40-50%.

Entscheidungs-Framework: Reserved vs. On-Demand

Kriterium Reserved On-Demand Spot
Nutzungsdauer >6 Monate konstant <1 Monate Variable
Budget pro Monat >5.000 USD <2.000 USD Flexibel
SLA-Anforderung 99.9%+ Keine Keine
Modell-Stabilität Produktionsmodell fix Experimentell Training mit Checkpoints

3.3 — Savings Plans für variable Workloads

Compute Savings Plans bieten Flexibilität bei 30% Rabatt. Sie eignen sich für Teams mit variabler GPU-Nutzung, die keine Reserved-Instance-Flexibilität opfern wollen.

Terraform-Konfiguration für Savings Plans:

resource "aws_savingsplans_data_transfer" "example" {
  payment_option = "No Upfront"
  plan_type      = "Compute"
  savings_plan_offering_id = data.aws_savingsplans_offering.selected.id
}

data "aws_savingsplans_offering" "selected" {
  offering_id = "sp-0XXX1234567890abcdef"
}

4 — Häufige Fehler bei GPU-Infrastruktur

Fehler 1: On-Demand für produktive Workloads ohne Reserved-Kapazität

Warum: Entwickler buchen für schnelle Tests, vergessen dann aber den Umstieg auf Reserved Instances.

Folge: Eine P4d-Produktionsinstanz kostet 3.672 USD/Monat. Mit Reserved: 2.200 USD. Bei 10 Instanzen sind das 17.520 USD/Jahr Mehrkosten.

Lösung: Automatisiere die Reserved-Kapazität mit AWS Budgets-Alarm bei 80% Nutzung. Nutze AWS Cost Explorer, um Reservations-Lücken zu identifizieren.

Fehler 2: Falsche Instance-Wahl für Inferenz

Warum: Teams wählen P4d für Inferenz, weil sie A100 kennen. Für Stable Diffusion ist G5 aber 3x günstiger pro generiertem Bild.

Messung: Tracking GPU-Utilization über CloudWatch. Unter 30% GPU-Nutzung bedeutet Oversizing.

# CloudWatch Metrik für GPU-Utilization
aws cloudwatch get-metric-statistics \
  --namespace "AWS/EC2" \
  --metric-name "GPUUtilization" \
  --dimensions Name=InstanceId,Value=i-0abc123 \
  --start-time 2026-01-01T00:00:00Z \
  --end-time 2026-01-07T00:00:00Z \
  --period 3600 \
  --statistics Average

Fehler 3: Kein Multi-Account-Setup für GPU-Budgets

Warum: Ein einzelnes AWS-Konto mischt Produktion und Entwicklung. GPU-Quotas vermischen sich, Kosten lassen sich nicht zuordnen.

Lösung: Separate Accounts für Training (Entwicklung, Experimentell, Produktion) und Inferenz (Staging, Produktion). Nutze AWS Organizations mit SCPs für GPU-Instance-Limits.

Fehler 4:忽视了数据迁移成本

Warum: Bei der Modellwahl wird die Datenverschiebung zwischen Regionen ignoriert. Multi-GPU-Training über Regionen hinweg kostet 0,02 USD/GB.

Berechnung: Ein 70B-Modell mit 140GB benötigt für jede Region-Migration: 2,80 USD pro Training-Run. Bei täglichem Training sind das 1.022 USD/Jahr allein für Daten-Transfer.

Fehler 5: Keine automatische Skalierung für Inferenz

Warum: Statische ASGs (Auto Scaling Groups) für Inferenz verursachen Idle-Kosten außerhalb der Spitzenzeiten.

Lösung: Target Tracking Policies mit GPU-Utilization als Metrik. Skaliere zwischen 2 und 20 Instanzen basierend auf Request-Queue-Depth.

5 — Empfehlungen und nächste Schritte

Verwende P5 für Training von Modellen über 30B Parameter. Die Kosten pro TFLOP sind zwar höher als bei Trainium, aber die Time-to-Market rechtfertigt den Aufpreis. Bei 8x H100 statt 8x A100 reduziert sich die Trainingszeit um 40%.

Migriere Inferenz auf Inferentia2, wenn Latenz unter 200ms akzeptabel ist. AWS Inferentia2 erreicht 4.300 Tokens/Sekunde für Llama 3.1 8B bei 0,76 USD/Stunde. Das ist 3x günstiger als G5 für diesen Workload.

Setze Spot Instances für alle nicht-produktiven Trainings-Workloads ein. Mit Checkpointing ist Spot-Training zu 99% unterbrechungsfrei. Die 70-90% Kostenersparnis sind den zusätzlichen Konfigurationsaufwand wert.

Schließe Reserved Instances nur für stabile Produktions-Workloads ab. Die Mindestlaufzeit von 1 Jahr erfordert Sicherheit über die Modell-Roadmap. Bei Experimenten mit neuen Architekturen: On-Demand oder Spot.

Implementiere FinOps-Governance vor der ersten GPU-Instanz. Ohne Budget-Alarms, Cost Explorer-Tags und monatliche Reviews explodieren die Kosten. Mein Standard-Setup: Tags für Team, Projekt, Modell und Umgebung. Automatische Stop-Scripts für Instances mit GPU-Utilization unter 10% für 30 Minuten.

6 — Praktische Konfigurations-Beispiele

Terraform-Modul für GPU-Inferenz-Infrastruktur

module "gpu_inference" {
  source  = "terraform-aws-modules/ec2-instance/aws//modules/instance"
  version = "~> 5.0"

  name           = "llama-inference-${var.environment}"
  instance_count = var.min_instances
  ami            = data.aws_ami.neuron.id
  instance_type  = "inf2.48xlarge"
  subnet_id      = module.vpc.private_subnets[0]

  tags = {
    Project   = "llama-inference"
    Team      = "ai-platform"
    ManagedBy = "terraform"
  }
}

resource "aws_autoscaling_policy" "gpu_scale" {
  name                   = "gpu-utilization-scaling"
  autoscaling_group_name = module.gpu_inference.autoscaling_group_name
  policy_type            = "TargetTrackingConfiguration"

  target_tracking_configuration {
    predefined_metric_specification {
      predefined_metric_type = "GPUUtilization"
    }
    target_value = 70
  }
}

Kubernetes GPU-Operator für Multi-Node Training

apiVersion: v1
kind: ServiceAccount
metadata:
  name: nvidia-device-plugin
  namespace: gpu-operator
---
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: nvidia-device-plugin-daemonset
  namespace: gpu-operator
spec:
  selector:
    matchLabels:
      name: nvidia-device-plugin
  template:
    metadata:
      labels:
        name: nvidia-device-plugin
    spec:
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - image: nvdp/nvidia-device-plugin:0.14.0
        name: nvidia-device-plugin
        resources:
          limits:
            nvidia.com/gpu: 8

Nächster Schritt: Analysiere deine aktuellen GPU-Kosten in AWS Cost Explorer. Filtere nach Instance-Familie und identifiziere Top 5 Workloads. Dann: Spot-Reservation für die ersten 3 nicht-produktiven Workloads innerhalb von 2 Wochen. Für produktive Inferenz: Reserved Instances mit 1-Jahres-Commitment, sobald das Modell stabil ist.

Wöchentliche Cloud-Insights — kostenlos

Praktische Leitfäden zu Cloud-Kosten, Sicherheit und Strategie. Kein Spam.

Comments

Leave a comment