Rund um die Uhr zuverlässige Systeme – keine reaktive Brandbekämpfung.
Einleitung
Ein Produktionssystem zu betreiben, ist nicht dasselbe wie es zu entwickeln. Sobald ein System live ist, muss jemand die Verantwortung übernehmen – auch um 2 Uhr morgens an einem Feiertag. Es gilt, Alarme zu priorisieren, bevor Kunden betroffen sind, und die Ursache zu beheben, damit der Fehler nicht erneut auftritt. Die meisten Entwicklungsteams sind nicht für diese Aufgaben strukturiert. Ihr Fokus liegt auf der Auslieferung.
Der Managed Operations Service von Gradion schließt diese Lücke. Wir übernehmen die Betriebsführung Ihrer Produktionssysteme im Rahmen eines Follow-the-Sun-Modells, verankert in Deutschland und Vietnam. Dies sichert Ihnen eine kontinuierliche Abdeckung, ohne intern einen eigenen Bereitschaftsdienst aufbauen zu müssen. Unsere Ingenieure agieren als Erweiterung Ihres Teams, nicht als separate Support-Ebene, an die Sie eskalieren.
Unser Modell ist SRE-gesteuert: SLO-zentriertes Denken, strukturiertes Incident Management und proaktive Zuverlässigkeitsarbeit zwischen Vorfällen. Wir messen, was relevant ist, alarmieren bei handlungsrelevanten Ereignissen und nutzen die ruhigen Phasen, um kritische Situationen seltener zu machen.
Unsere Leistungen
Follow-the-Sun-Abdeckung
Unsere Engineering-Hubs in Deutschland und Vietnam gewährleisten eine überlappende Abdeckung der europäischen und asiatisch-pazifischen Geschäftszeiten. Die Bereitschaftsdienste werden von Ingenieuren besetzt, die Ihr System kennen – nicht von einem generischen Helpdesk, der aus einem Runbook vorliest. Übergaben sind strukturiert, dokumentiert und nachverfolgt, sodass der Kontext zwischen den Zeitzonen niemals verloren geht.
SLO-Design und -Management
Bevor wir etwas überwachen, definieren wir, was Zuverlässigkeit für Ihren Service bedeutet. Wir arbeiten mit Ihrem Team zusammen, um Service Level Objectives (SLOs) festzulegen, die an die reale Nutzererfahrung gekoppelt sind. Darauf aufbauend entwickeln wir das Error-Budget-Framework und instrumentieren Ihre Systeme entsprechend. Die Alarmierung wird auf die SLO-Burn-Rate abgestimmt, nicht auf Rohmetriken, die nur Rauschen erzeugen.
Incident Response und Postmortems
Wenn ein Problem auftritt, folgen wir einem strukturierten Reaktionsprozess: Triage, Eindämmung, Minderung, Wiederherstellung. Nach dem Vorfall führen wir eine schuldfreie Post-Mortem-Analyse durch und erstellen einen schriftlichen Bericht mit konkreten Maßnahmen. Diese Maßnahmen verfolgen wir bis zu ihrer vollständigen Umsetzung. Das Ziel ist ein System, das mit der Zeit weniger Fehler aufweist, nicht ein Team, das besser in der Problembehebung wird.
Proaktives Zuverlässigkeits-Engineering
Die Betriebszeit wird nicht nur für Reaktionen aufgewendet. Zwischen Vorfällen arbeiten unsere Ingenieure an Zuverlässigkeitsverbesserungen: Kapazitätsplanung, Härtung von Abhängigkeiten, Runbook-Automatisierung, Chaos-Testing auf nicht-kritischen Pfaden. Für diese Aufgaben allokieren wir in jedem Sprint einen definierten Anteil der Projektstunden.
Observability- und Monitoring-Einrichtung
Wir bauen und warten den Monitoring-Stack, der den Betrieb ermöglicht: Metriken, Logs, Distributed Tracing, Dashboards und Alarm-Routing. Die Tool-Auswahl erfolgt basierend auf Ihrer Umgebung, typischerweise aus dem Ökosystem von Prometheus, Grafana, OpenTelemetry und PagerDuty. Wir passen uns jedoch an Ihre bestehenden Systeme an.
Entwicklung von On-Call-Runbooks
Wir dokumentieren jedes System, das wir betreiben. Runbooks decken Standard-Fehlermodi, Eskalationspfade, Rollback-Prozeduren und Kontaktbäume ab. Neue Ingenieure können innerhalb von Tagen produktiv sein, nicht erst nach Monaten. Runbooks werden aktuell gehalten und nach jedem Vorfall aktualisiert.
Erfolg in der Praxis
Die DataFlow Group (eine globale Plattform zur Überprüfung von Qualifikationen) betreibt Systeme zur Hintergrundprüfung und Dokumentenverifizierung, die eine hohe Verfügbarkeit über internationale Gerichtsbarkeiten hinweg erfordern. Manuelle Operationen führten zu Verzögerungen bei der Bereitstellung und menschlichen Fehlern. Gradion überarbeitete die Infrastruktur, führte Autoscaling und automatisierte Bereitstellung ein und eliminierte manuelle Fehler durch Infrastructure as Code. Die Bereitstellungen wurden fünfmal schneller, der manuelle Aufwand sank um 30 Prozent, und die Plattform erreichte einen Automatisierungsgrad von 99 Prozent.
commercetools – mit einer Bewertung von 1,9 Milliarden US-Dollar, einem jährlichen Bruttowarenvolumen (GMV) von über 75 Milliarden US-Dollar und 500 Millionen Bestellungen pro Jahr – betreibt seine globale Cloud-Infrastruktur in einem Drei-Team-Follow-the-Sun-Modell. Gradion übernimmt dabei den vietnamesischen Teil: die vollständige Tagesverantwortung für die Produktionsplattform, die dieselbe Infrastruktur abdeckt, die die Teams in den USA und Deutschland während ihrer Schichten betreiben. Dies ist keine reine Überwachungswarteschlange oder ein Eskalationspfad. Es ist ein Drittel der Lösung, wie die weltweit führende Composable-Commerce-Plattform eine 24/7-Betriebsabdeckung aufrechterhält, ohne dass ein einzelnes Team rund um die Uhr arbeiten muss.
Technologie-Stack
Monitoring und Observability: Prometheus, Grafana, OpenTelemetry, Jaeger
Alarmierung und Bereitschaftsdienst: PagerDuty, OpsGenie, VictorOps
Logging: Loki, ELK Stack, CloudWatch
Incident Management: strukturierter Postmortem-Prozess, Confluence oder Notion für die Dokumentation
Infrastruktur: Cloud-native (AWS, GCP, Azure) und Kubernetes-native Umgebungen
Handlungsaufforderung
Beschreiben Sie Ihr System. Wir bewerten das Betriebsrisiko und entwickeln ein passendes Abdeckungsmodell.
75 Mrd. US-Dollar GMV, Follow-the-Sun-Betrieb
commercetools verarbeitet jährlich über 75 Mrd. US-Dollar GMV und 500 Mio. Bestellungen. Gradion übernimmt den APAC-Teil ihres Follow-the-Sun-Cloud-Betriebs: die vollständige Tagesverantwortung für die globale Produktionsplattform.
Benötigen Sie eine 24/7-Infrastrukturabdeckung, ohne ein in…
Wir betreiben Ihre Infrastruktur rund um die Uhr mit SLA-gestützten Reaktionszeiten. Nennen Sie uns Ihre Anforderungen an die Verfügbarkeit.