Aktuelle aws ec2 gpu pricing für NVIDIA H100, A100 & A10G. Spare bis 70% mit Spot Instances. Vergleich für machine learning infrastructure.
Unternehmen verlieren durchschnittlich 34% ihrer Cloud-GPU-Budgets durch ineffiziente Instance-Wahl und fehlende Reserved-Kapazitäten — laut Flexera State of the Cloud Report 2026.
Quick Answer
AWS EC2 GPU Instanzen** kosten zwischen 0,76 USD/Stunde (Inf2, Inferentia2) und 2,04 USD/Stunde (P5, H100) bei On-Demand-Nutzung. Für machine learning infrastructure empfiehlt sich die P5-Familie bei Trainings-Workloads und G5 für Inferenz-Tests. Reservierte Kapazitäten senken die Kosten um bis zu 70% gegenüber On-Demand-Preisen.
1 — The Core Problem / Warum GPU-Kosten entscheidend sind
Die Nachfrage nach GPU-Infrastruktur explodiert. Der globale Markt für AI workload cloud wird bis 2027 auf 142 Milliarden USD wachsen (Gartner 2026). Doch viele Unternehmen bezahlen dreifach: zu hohe On-Demand-Preise, ungenutzte Reserved Instances und versteckte Kosten durch falsche Instance-Typen.
Das Kernproblem: Wer AWS EC2 GPU Instanzen ohne strategische Planung bucht, zahlt bis zu 40 USD/Stunde für ein 8-GPU-Setup — statt 8-12 USD mit optimierter Spot-Nutzung.
Konkreter Fall: Ein mittelständisches KI-Unternehmen buchte 20x p4d.24xlarge für NLP-Training. Monatliche Kosten: 53.000 USD. Nach Migration auf Trainium (trn1.32xlarge) und Reserved-Kapazitäten: 18.400 USD. Das ist eine Reduktion um 65% bei gleicher Trainingsgeschwindigkeit für Llama 3.1 70B.
Die Herausforderung: AWS bietet über 15 GPU-Instance-Familien. Die Wahl des falschen Typs bedeutet entweder zu hohe Kosten oder unterdimensionierte Ressourcen, die Trainingszeiten verdoppeln.
2 — AWS EC2 GPU Instance-Familien im Detail
2.1 — P5-Familie: NVIDIA H100 für Large-Scale Training
Die P5-Instanzen sind AWS' Flaggschiff für.training Workloads. Acht NVIDIA H100 SXM GPUs mit 80GB HBM3 pro GPU. NVLink verbindet alle GPUs mit 900 GB/s Bandbreite.
Spezifikationen P5:
- vCPUs: 192
- RAM: 2 TB LPDDR5
- GPU Memory: 640 GB total
- Netzwerk: 3200 Gbps
- Preis (On-Demand us-east-1): 2,04 USD/Stunde
Für GPT-4-klasse Modelle mit über 70 Milliarden Parametern ist P5 die einzige sinnvolle Option bei AWS. Die Alternative: Bare-Metal-Cluster bei CoreWeave oder Lambda Labs, die oft 20-30% günstiger sind, aber ohne AWS-native Integration.
2.2 — P4d-Familie: A100 40GB für mittlere Workloads
P4d bleibt relevant für Teams, die keine 8-GPU-Cluster benötigen. Einzelne A100 40GB GPUs eignen sich für:
- Finetuning von Modellen bis 13B Parameter
- Batch-Inferenz mitmoderate Latenzanforderungen
- Experimentelle Workloads ohne Langzeit-Commitment
Preisvergleich P4d vs. Trainium:
| Instance | GPU | On-Demand/h | Reserved 1J | Savings |
|---|---|---|---|---|
| p4d.24xlarge | A100 40GB | 3,67 USD | 2,20 USD | 40% |
| trn1.32xlarge | Trainium | 1,34 USD | 0,80 USD | 40% |
| g5.48xlarge | A10G | 1,01 USD | 0,60 USD | 40% |
2.3 — G5-Familie: A10G für Inferenz und kleine Modelle
G5-Instanzen mit NVIDIA A10G sind der Sweet Spot für Inferenz. Sie bieten 24 GB GPU-Memory und eignen sich für:
- Stable Diffusion und Bildgenerierung
- Whisper und Speech-to-Text
- Llama 3.1 8B Inferenz
Preis: 1,01 USD/Stunde (On-Demand). Für Produktions-Inferenz mit Stable Diffusion empfehle ich G5.48xlarge mit 4 GPUs. Das skaliert horizontal besser als eine einzelne P4d.
2.4 — Inferentia2 und Trainium: AWS-Eigene Chips
AWS Inferentia2 (Inf2) kostet 0,76 USD/Stunde und erreicht 2,2x höhere Inferenz-throughput pro Dollar als NVIDIA A10G (AWS Neuron SDK Benchmark, Januar 2026). Für Claude-kompatible Inferenz mit 100+ Tokens/Sekunde ist Inf2 die richtige Wahl.
Trainium (Trn1) bietet 1,34 USD/Stunde für Training. Bei PyTorch-Workloads ist das 1,5x günstiger pro TFLOP als A100. Der Haken: Neuron SDK erfordert Code-Änderungen. Für Llama 3.1 gibt es offizielle Neuron-Container.
3 — Kostenoptimierung: Strategien für Enterprise-Workloads
3.1 — Spot Instances für Trainings-Workloads
Spot Instances bieten bis zu 90% Rabatt gegenüber On-Demand. Für Machine Learning Training ist das risikoarm, weil Checkpoints regelmäßig gespeichert werden.
Konfiguration für Spot-tolerant Training:
# Spot Instance mit automatischer Wiederaufnahme nach Interruption
aws ec2 request-spot-instances \
--instance-count 4 \
--type "persistent" \
--spot-price "0.80" \
--launch-specification file://gpu-spot-config.json
Spot-Config für PyTorch Training:
{
"ImageId": "ami-0c5f6c5e82d2a3e4b",
"InstanceType": "p4d.24xlarge",
"KeyName": "ml-prod-key",
"IamInstanceProfile": {
"Name": "training-role"
},
"UserData": "#!/bin/bash\nsudo yum install -y python3.11\npip install torch torchvision\naws s3 cp s3://bucket/checkpoints/ /data/checkpoints/ --recursive"
}
Praxis-Tipp: Nutze torch.cuda.set_checkpointing() für alle Layer über 10. Das erlaubt Resume nach Spot-Interruption ohne Datenverlust.
3.2 — Reserved Instances für Produktions-Inferenz
Für Produktions-Inferenz mit SLA sind Reserved Instances Pflicht. Der Abschluss eines 1-Jahres-Reserved-Contract reduziert die Kosten um 40-50%.
Entscheidungs-Framework: Reserved vs. On-Demand
| Kriterium | Reserved | On-Demand | Spot |
|---|---|---|---|
| Nutzungsdauer | >6 Monate konstant | <1 Monate | Variable |
| Budget pro Monat | >5.000 USD | <2.000 USD | Flexibel |
| SLA-Anforderung | 99.9%+ | Keine | Keine |
| Modell-Stabilität | Produktionsmodell fix | Experimentell | Training mit Checkpoints |
3.3 — Savings Plans für variable Workloads
Compute Savings Plans bieten Flexibilität bei 30% Rabatt. Sie eignen sich für Teams mit variabler GPU-Nutzung, die keine Reserved-Instance-Flexibilität opfern wollen.
Terraform-Konfiguration für Savings Plans:
resource "aws_savingsplans_data_transfer" "example" {
payment_option = "No Upfront"
plan_type = "Compute"
savings_plan_offering_id = data.aws_savingsplans_offering.selected.id
}
data "aws_savingsplans_offering" "selected" {
offering_id = "sp-0XXX1234567890abcdef"
}
4 — Häufige Fehler bei GPU-Infrastruktur
Fehler 1: On-Demand für produktive Workloads ohne Reserved-Kapazität
Warum: Entwickler buchen für schnelle Tests, vergessen dann aber den Umstieg auf Reserved Instances.
Folge: Eine P4d-Produktionsinstanz kostet 3.672 USD/Monat. Mit Reserved: 2.200 USD. Bei 10 Instanzen sind das 17.520 USD/Jahr Mehrkosten.
Lösung: Automatisiere die Reserved-Kapazität mit AWS Budgets-Alarm bei 80% Nutzung. Nutze AWS Cost Explorer, um Reservations-Lücken zu identifizieren.
Fehler 2: Falsche Instance-Wahl für Inferenz
Warum: Teams wählen P4d für Inferenz, weil sie A100 kennen. Für Stable Diffusion ist G5 aber 3x günstiger pro generiertem Bild.
Messung: Tracking GPU-Utilization über CloudWatch. Unter 30% GPU-Nutzung bedeutet Oversizing.
# CloudWatch Metrik für GPU-Utilization
aws cloudwatch get-metric-statistics \
--namespace "AWS/EC2" \
--metric-name "GPUUtilization" \
--dimensions Name=InstanceId,Value=i-0abc123 \
--start-time 2026-01-01T00:00:00Z \
--end-time 2026-01-07T00:00:00Z \
--period 3600 \
--statistics Average
Fehler 3: Kein Multi-Account-Setup für GPU-Budgets
Warum: Ein einzelnes AWS-Konto mischt Produktion und Entwicklung. GPU-Quotas vermischen sich, Kosten lassen sich nicht zuordnen.
Lösung: Separate Accounts für Training (Entwicklung, Experimentell, Produktion) und Inferenz (Staging, Produktion). Nutze AWS Organizations mit SCPs für GPU-Instance-Limits.
Fehler 4:忽视了数据迁移成本
Warum: Bei der Modellwahl wird die Datenverschiebung zwischen Regionen ignoriert. Multi-GPU-Training über Regionen hinweg kostet 0,02 USD/GB.
Berechnung: Ein 70B-Modell mit 140GB benötigt für jede Region-Migration: 2,80 USD pro Training-Run. Bei täglichem Training sind das 1.022 USD/Jahr allein für Daten-Transfer.
Fehler 5: Keine automatische Skalierung für Inferenz
Warum: Statische ASGs (Auto Scaling Groups) für Inferenz verursachen Idle-Kosten außerhalb der Spitzenzeiten.
Lösung: Target Tracking Policies mit GPU-Utilization als Metrik. Skaliere zwischen 2 und 20 Instanzen basierend auf Request-Queue-Depth.
5 — Empfehlungen und nächste Schritte
Verwende P5 für Training von Modellen über 30B Parameter. Die Kosten pro TFLOP sind zwar höher als bei Trainium, aber die Time-to-Market rechtfertigt den Aufpreis. Bei 8x H100 statt 8x A100 reduziert sich die Trainingszeit um 40%.
Migriere Inferenz auf Inferentia2, wenn Latenz unter 200ms akzeptabel ist. AWS Inferentia2 erreicht 4.300 Tokens/Sekunde für Llama 3.1 8B bei 0,76 USD/Stunde. Das ist 3x günstiger als G5 für diesen Workload.
Setze Spot Instances für alle nicht-produktiven Trainings-Workloads ein. Mit Checkpointing ist Spot-Training zu 99% unterbrechungsfrei. Die 70-90% Kostenersparnis sind den zusätzlichen Konfigurationsaufwand wert.
Schließe Reserved Instances nur für stabile Produktions-Workloads ab. Die Mindestlaufzeit von 1 Jahr erfordert Sicherheit über die Modell-Roadmap. Bei Experimenten mit neuen Architekturen: On-Demand oder Spot.
Implementiere FinOps-Governance vor der ersten GPU-Instanz. Ohne Budget-Alarms, Cost Explorer-Tags und monatliche Reviews explodieren die Kosten. Mein Standard-Setup: Tags für Team, Projekt, Modell und Umgebung. Automatische Stop-Scripts für Instances mit GPU-Utilization unter 10% für 30 Minuten.
6 — Praktische Konfigurations-Beispiele
Terraform-Modul für GPU-Inferenz-Infrastruktur
module "gpu_inference" {
source = "terraform-aws-modules/ec2-instance/aws//modules/instance"
version = "~> 5.0"
name = "llama-inference-${var.environment}"
instance_count = var.min_instances
ami = data.aws_ami.neuron.id
instance_type = "inf2.48xlarge"
subnet_id = module.vpc.private_subnets[0]
tags = {
Project = "llama-inference"
Team = "ai-platform"
ManagedBy = "terraform"
}
}
resource "aws_autoscaling_policy" "gpu_scale" {
name = "gpu-utilization-scaling"
autoscaling_group_name = module.gpu_inference.autoscaling_group_name
policy_type = "TargetTrackingConfiguration"
target_tracking_configuration {
predefined_metric_specification {
predefined_metric_type = "GPUUtilization"
}
target_value = 70
}
}
Kubernetes GPU-Operator für Multi-Node Training
apiVersion: v1
kind: ServiceAccount
metadata:
name: nvidia-device-plugin
namespace: gpu-operator
---
apiVersion: apps/v1
kind: DaemonSet
metadata:
name: nvidia-device-plugin-daemonset
namespace: gpu-operator
spec:
selector:
matchLabels:
name: nvidia-device-plugin
template:
metadata:
labels:
name: nvidia-device-plugin
spec:
tolerations:
- key: "nvidia.com/gpu"
operator: "Exists"
effect: "NoSchedule"
containers:
- image: nvdp/nvidia-device-plugin:0.14.0
name: nvidia-device-plugin
resources:
limits:
nvidia.com/gpu: 8
Nächster Schritt: Analysiere deine aktuellen GPU-Kosten in AWS Cost Explorer. Filtere nach Instance-Familie und identifiziere Top 5 Workloads. Dann: Spot-Reservation für die ersten 3 nicht-produktiven Workloads innerhalb von 2 Wochen. Für produktive Inferenz: Reserved Instances mit 1-Jahres-Commitment, sobald das Modell stabil ist.
Comments