Einleitung

Ein Produktionssystem zu betreiben, ist nicht dasselbe wie es zu entwickeln. Sobald ein System live ist, muss jemand die Verantwortung übernehmen – auch um 2 Uhr morgens an einem Feiertag. Es gilt, Alarme zu priorisieren, bevor Kunden betroffen sind, und die Ursache zu beheben, damit der Fehler nicht erneut auftritt. Die meisten Entwicklungsteams sind nicht für diese Aufgaben strukturiert. dein Fokus liegt auf der Auslieferung.

Der Managed Operations Service von Gradion schließt diese Lücke. Wir übernehmen die Betriebsführung deiner Produktionssysteme im Rahmen eines Follow-the-Sun-Modells, verankert in Deutschland und Vietnam. Dies sichert dir eine kontinuierliche Abdeckung, ohne intern einen eigenen Bereitschaftsdienst aufbauen zu müssen. Unsere Ingenieure agieren als Erweiterung deines Teams, nicht als separate Support-Ebene, an die Sie eskalieren.

Unser Modell ist SRE-gesteuert: SLO-zentriertes Denken, strukturiertes Incident Management und proaktive Zuverlässigkeitsarbeit zwischen Vorfällen. Wir messen, was relevant ist, alarmieren bei handlungsrelevanten Ereignissen und nutzen die ruhigen Phasen, um kritische Situationen seltener zu machen.

Unsere Leistungen

Follow-the-Sun-Abdeckung

Unsere Engineering-Hubs in Deutschland und Vietnam gewährleisten eine überlappende Abdeckung der europäischen und asiatisch-pazifischen Geschäftszeiten. Die Bereitschaftsdienste werden von Ingenieuren besetzt, die dein System kennen – nicht von einem generischen Helpdesk, der aus einem Runbook vorliest. Übergaben sind strukturiert, dokumentiert und nachverfolgt, sodass der Kontext zwischen den Zeitzonen niemals verloren geht.

SLO-Design und -Management

Bevor wir etwas überwachen, definieren wir, was Zuverlässigkeit für deinen Service bedeutet. Wir arbeiten mit deinem Team zusammen, um Service Level Objectives (SLOs) festzulegen, die an die reale Nutzererfahrung gekoppelt sind. Darauf aufbauend entwickeln wir das Error-Budget-Framework und instrumentieren deine Systeme entsprechend. Die Alarmierung wird auf die SLO-Burn-Rate abgestimmt, nicht auf Rohmetriken, die nur Rauschen erzeugen.

Incident Response und Postmortems

Wenn ein Problem auftritt, folgen wir einem strukturierten Reaktionsprozess: Triage, Eindämmung, Minderung, Wiederherstellung. Nach dem Vorfall führen wir eine schuldfreie Post-Mortem-Analyse durch und erstellen einen schriftlichen Bericht mit konkreten Maßnahmen. Diese Maßnahmen verfolgen wir bis zu ihrer vollständigen Umsetzung. Das Ziel ist ein System, das mit der Zeit weniger Fehler aufweist, nicht ein Team, das besser in der Problembehebung wird.

Proaktives Zuverlässigkeits-Engineering

Die Betriebszeit wird nicht nur für Reaktionen aufgewendet. Zwischen Vorfällen arbeiten unsere Ingenieure an Zuverlässigkeitsverbesserungen: Kapazitätsplanung, Härtung von Abhängigkeiten, Runbook-Automatisierung, Chaos-Testing auf nicht-kritischen Pfaden. Für diese Aufgaben allokieren wir in jedem Sprint einen definierten Anteil der Projektstunden.

Observability- und Monitoring-Einrichtung

Wir bauen und warten den Monitoring-Stack, der den Betrieb ermöglicht: Metriken, Logs, Distributed Tracing, Dashboards und Alarm-Routing. Die Tool-Auswahl erfolgt basierend auf deiner Umgebung, typischerweise aus dem Ökosystem von Prometheus, Grafana, OpenTelemetry und PagerDuty. Wir passen uns jedoch an deine bestehenden Systeme an.

Entwicklung von On-Call-Runbooks

Wir dokumentieren jedes System, das wir betreiben. Runbooks decken Standard-Fehlermodi, Eskalationspfade, Rollback-Prozeduren und Kontaktbäume ab. Neue Ingenieure können innerhalb von Tagen produktiv sein, nicht erst nach Monaten. Runbooks werden aktuell gehalten und nach jedem Vorfall aktualisiert.

Erfolg in der Praxis

Die DataFlow Group (eine globale Plattform zur Überprüfung von Qualifikationen) betreibt Systeme zur Hintergrundprüfung und Dokumentenverifizierung, die eine hohe Verfügbarkeit über internationale Gerichtsbarkeiten hinweg erfordern. Manuelle Operationen führten zu Verzögerungen bei der Bereitstellung und menschlichen Fehlern. Gradion überarbeitete die Infrastruktur, führte Autoscaling und automatisierte Bereitstellung ein und eliminierte manuelle Fehler durch Infrastructure as Code. Die Bereitstellungen wurden fünfmal schneller, der manuelle Aufwand sank um 30 Prozent, und die Plattform erreichte einen Automatisierungsgrad von 99 Prozent.

commercetools – mit einer Bewertung von 1,9 Milliarden US-Dollar, einem jährlichen Bruttowarenvolumen (GMV) von über 75 Milliarden US-Dollar und 500 Millionen Bestellungen pro Jahr – betreibt seine globale Cloud-Infrastruktur in einem Drei-Team-Follow-the-Sun-Modell. Gradion übernimmt dabei den vietnamesischen Teil: die vollständige Tagesverantwortung für die Produktionsplattform, die dieselbe Infrastruktur abdeckt, die die Teams in den USA und Deutschland während ihrer Schichten betreiben. Dies ist keine reine Überwachungswarteschlange oder ein Eskalationspfad. Es ist ein Drittel der Lösung, wie die weltweit führende Composable-Commerce-Plattform eine 24/7-Betriebsabdeckung aufrechterhält, ohne dass ein einzelnes Team rund um die Uhr arbeiten muss.

Technologie-Stack

Monitoring und Observability: Prometheus, Grafana, OpenTelemetry, Jaeger

Alarmierung und Bereitschaftsdienst: PagerDuty, OpsGenie, VictorOps

Logging: Loki, ELK Stack, CloudWatch

Incident Management: strukturierter Postmortem-Prozess, Confluence oder Notion für die Dokumentation

Infrastruktur: Cloud-native (AWS, GCP, Azure) und Kubernetes-native Umgebungen

Handlungsaufforderung

Beschreiben Sie dein System. Wir bewerten das Betriebsrisiko und entwickeln ein passendes Abdeckungsmodell.

Rund um die Uhr zuverlässige Systeme – keine reaktive Brandbekämpfung.