Was ist passiert?
Am 20. Oktober 2025 erlebte AWS einen Ausfall mit weltweiter Tragweite, der Hunderte essenzieller Dienste betraf — soziale Netzwerke, Videospiele, E-Commerce, Banken, vernetzte Geräte.
Besonders betroffen war die Region US-EAST-1 (Nord-Virginia, USA), eine strategische Zone der AWS-Infrastruktur.
Laut AWS: „erhöhte Fehlerraten und erhebliche Latenzen bei mehreren Diensten".
Die identifizierten Ursachen
1. Fehlfunktion von DNS und Load Balancern
Die technische Ursache wurde lokalisiert: ein Bug im DNS-Automatisierungssystem, das von DynamoDB (der Datenbank von AWS) genutzt wird – ein leerer DNS-Eintrag in US-EAST-1 wurde nicht automatisch repariert.
Parallel dazu löste ein Subsystem zur Überwachung des Zustands der Network Load Balancer eine Kaskade von Fehlfunktionen aus.
2. Dominoeffekt und zentrale Abhängigkeit
Da so viele Dienste für Hosting, Speicher und Distribution auf AWS angewiesen sind, breitete sich das, was nach einem „internen" Problem aussah, im gesamten Ökosystem aus.
Zudem unterstreicht dieser Ausfall die Fragilität einer Infrastruktur, die heute stark bei wenigen großen Cloud-Anbietern zentralisiert ist.
Auswirkungen auf Unternehmen und Nutzer
- Millionen von Nutzern meldeten Zugangsstörungen oder sehr langsame Antwortzeiten auf Plattformen wie Snapchat, Reddit, Fortnite, bei Banken und vernetzten Geräten.
- Für AWS-Kundenunternehmen bedeutete der Ausfall: Umsatzverluste, Unterbrechung kritischer Dienste, Vertrauensverlust.
- Ein Alarmsignal für das Ökosystem: Auch die Cloud-Giganten sind nicht vor einer schweren Störung gefeit.
Warum das ein strategisches Problem ist
- Konzentration der Cloud-Infrastruktur: AWS dominiert mit rund 30 % des Cloud-Marktes; ein Ausfall dieser Größenordnung zeigt, dass ein einzelner Single Point of Failure globale Auswirkungen haben kann.
- Kaskadeneffekt: Ein Bug in einem internen Subsystem (DNS, Load Balancing) kann den gesamten Dienst beeinträchtigen.
- Resilienz-Bedarf: Viele Unternehmen hatten keinen externen Notfall- oder Multi-Cloud-Plan bereit zum Umschalten.
- Reputation & Vertrauen: Für AWS wie für die Kunden ist Zuverlässigkeit ein Schlüsselelement des Geschäftsmodells.
Best Practices und Lehren für Unternehmen
- Einen Multi-Cloud-Kontinuitätsplan oder zumindest einen Multi-Region-Plan einrichten, wenn Sie auf AWS sind.
- Versteckte Abhängigkeiten überwachen: Wenn ein Cloud-Mikrodienst zusammenbricht, welche Nebeneffekte hat das?
- Resilienz-Tests einrichten (Chaos Testing, geplante Umschaltungen), um sicherzustellen, dass Ihre Systeme einem Ausfall standhalten.
- Ihre Cloud-Anbieter und deren Redundanzstrategie regelmäßig bewerten.
- Im Vorfallsfall schnell und klar kommunizieren: Transparenz = Vertrauen.
Zusammenfassung
Der AWS-Ausfall vom Oktober 2025 ist eine schroffe Erinnerung daran, dass selbst sogenannte „Cloud"-Infrastrukturen nicht unfehlbar sind. Er zeigt, dass Hochverfügbarkeit nicht standardmäßig gekauft wird – sie wird konzipiert, geplant und getestet. Für digitale Unternehmen gilt: Resilienz zu denken, ist heute ein Muss.