Die Engineering-Disziplin, die die Lücke schließt zwischen einem Modell, das im Notebook funktioniert, und einem System, auf das sich dein Unternehmen verlassen kann. Von der Pipeline-Entwicklung über die Drift-Erkennung bis zur Kostenkontrolle – als einheitliches System konzipiert, nicht als separate Probleme gelöst.

Ein Modell, das im Notebook gut funktioniert, ist noch kein Produktionssystem. Die Lücke zwischen diesen beiden Zuständen ist der Punkt, an dem die meisten KI-Initiativen scheitern.

Datenpipelines, die für einen kontrollierten Datensatz funktionierten, versagen unter realen Traffic-Mustern. Eine Inferenzlatenz, die in einer Demo akzeptabel war, wird bei Skalierung zum Problem für die User Experience. Die Modellperformance verschlechtert sich über Wochen unbemerkt, wenn sich Eingabeverteilungen ändern. Niemand bemerkt es, bis sich das Geschäftsergebnis ändert.

Die meisten Unternehmen behandeln Pipeline-Engineering, Modellversionierung, Inferenzinfrastruktur und Monitoring als separate Probleme, die später gelöst werden. Gradion betrachtet sie als ein einziges Engineering-System, das von Anfang an aufgebaut werden muss.

Unsere Vorgehensweise

Phase	Was geschieht	Typischer Zeitrahmen
ML-Bewertung	Wir erfassen deinen aktuellen Modellbestand, den Zustand deiner Pipelines, Infrastruktur, Monitoring-Abdeckung und Datenqualität. Sie erhalten eine schriftliche Bewertung, was produktionsreif ist, was anfällig ist und was aufgebaut werden muss.	1–2 Wochen
Grundlagenaufbau	Die zentrale MLOps-Infrastruktur: Pipelines, Modell-Registry, Deployment-Automatisierung, Monitoring und Inference Serving – zugeschnitten auf deine Modellanzahl und dein Traffic-Volumen.	4–8 Wochen
Betrieb & Optimierung	Drift-Erkennung, automatisiertes Retraining, Kosten-Transparenz und die Governance-Kontrollen, die Modelle auch bei wachsendem Volumen und zunehmender Komplexität zuverlässig halten.	Fortlaufend

Für kleinere Teams:MLOps-Lite wendet dieselben Prinzipien mit geringerem operativen Aufwand an. In zwei Wochen konzipiert, die Kerninfrastruktur in acht Wochen geliefert. Experiment-Tracking, eine schlanke Modell-Registry, Deployment-Automatisierung und Monitoring, ausreichend für die Modellanzahl – ohne den Overhead einer Enterprise ML-Plattform.

Wir arbeiten mit deiner bestehenden ML-Plattform oder bauen eine auf. Kubeflow, MLflow, SageMaker, Vertex AI – die Disziplin zählt mehr als das Tooling.

Was wir aufbauen

Kern: Pipeline & Modell-Lebenszyklus

Produktions-ML-Pipeline-EngineeringEnd-to-End ML-Pipelines, die wiederholbar, testbar und versionskontrolliert sind. Feature Engineering mit Lineage-Tracking, Trainingsläufe, die von einem Commit-Hash reproduzierbar sind, Modell-Registries mit Promotion Gates und Deployment-Pipelines, die ein Modell-Artefakt mit derselben Disziplin behandeln wie Anwendungscode. Das Ergebnis ist eine Pipeline, die Sie auditieren können, nicht ein Notebook, das jemand einmal ausgeführt hat.

Modell-Monitoring & Drift-ErkennungModelle altern. Die Frage ist, ob du es über ein Dashboard oder durch eine Kundenbeschwerde erfahren. Wir instrumentieren Produktionsmodelle mit statistischem Monitoring, das Verschiebungen der Eingabeverteilung, die Verschlechterung der Ausgabesicherheit und die Abweichung von Geschäftsmetriken verfolgt. Warnmeldungen werden ausgelöst, bevor die Performance einen kritischen Schwellenwert unterschreitet.

Retraining-PipelinesAutomatisiertes Retraining schließt den Kreislauf zwischen Monitoring und Verbesserung. Pipelines werden durch Drift-Signale oder nach einem Zeitplan ausgelöst, validieren gegen zurückgehaltene Evaluierungsdatensätze und werden nur dann in die Produktion überführt, wenn die Performance-Schwellenwerte erfüllt sind. Für Anwendungsfälle im Finanzdienstleistungsbereich und bei der Identitätsprüfung erzeugt jedes Retraining-Ereignis einen auditierbaren Datensatz, der regulatorische Anforderungen erfüllt.

Infrastruktur: Serving & Daten

Inferenz-InfrastrukturInferenz ist der Punkt, an dem KI-Kosten entweder kontrolliert werden oder explodieren. Wir entwerfen Serving-Muster, die auf das Lastprofil abgestimmt sind: Batch, Echtzeit oder asynchron. Passend dimensionierte Rechenleistung, Caching, wo die Latenz es zulässt, und Benchmarking gegen Kosten- und SLA-Ziele vor dem Go-Live. Für GPU-abhängige Modelle: Auslastungs-Baselines, Spot-Instanz-Strategien und Modellquantisierung, wo die Genauigkeitstoleranzen es zulassen.

ML-Datenpipeline-EngineeringDie entscheidende Grundlage für jedes ML-Ergebnis. Wir entwickeln ML-spezifische Datenpipelines, die Erfassung, Transformation, Validierung und Nachverfolgung der Datenherkunft für Reproduzierbarkeit konzipieren. Die DSGVO-Konformität wird direkt auf Pipeline-Ebene integriert, nicht nachträglich angepasst. Wenn Analysen zeigen, dass die Datenschicht – und nicht das Modell – der Engpass ist, beheben wir diesen zuerst. Dabei greifen wir auf die Expertise von Gradion im Data Engineering zurück.

Optimierung: Kosten & Governance

Kosten-Transparenz für KIDie Ressourcennutzung von KI/ML ist oft der größte und am wenigsten verstandene Posten im Budget für technische Infrastruktur. Wir ordnen Ausgaben dem Geschäftswert zu: welche Modelle welche Betriebskosten verursachen, wie hoch die Kosten pro Inferenz beim aktuellen Volumen sind und wo Architekturänderungen die Kosten senken, ohne die Ergebnisqualität zu mindern.

Datenresidenz für ML-Workloads

Für regulierte ML-Workloads – insbesondere in Finanzdienstleistungen, Identitätsprüfung und Gesundheitswesen – bei denen Modelle trainiert werden und Inferenzläufe Compliance-Entscheidungen sind, nicht nur Infrastruktur-Entscheidungen.

Wir stellen Trainings- und Serving-Infrastruktur in der EU Sovereign Cloud oder vollständig On-Premise bereit, je nach Anforderung. Open-Weight-Modelle (Llama, Mistral, Phi) ermöglichen On-Premise-Inferenz ohne externe API-Abhängigkeiten. Daten für Training, Evaluierung und Retraining verbleiben während des gesamten Modell-Lebenszyklus innerhalb der definierten Residenzgrenzen.

Erfolg in der Praxis

IDNow – Echtzeit-ML im regulierten UmfeldIDNow, einer der führenden europäischen Anbieter für KI-gestützte Identitätsprüfung, benötigte Echtzeit-ML in der Produktion, die den Latenz- und Zuverlässigkeitsanforderungen der regulierten Identitätsprüfung gerecht wird. Gradion verantwortet seit mehreren Jahren das ML Engineering innerhalb der IDNow-Organisation – Modellentwicklung für Dokumentenanalyse, Gesichtserkennung und Betrugserkennung im Unternehmensmaßstab, wobei Compliance und Auditierbarkeit in jede Bereitstellung integriert sind.

Shopware – KI-Funktionen für die Produktion im Ökosystem-MaßstabShopware liefert KI-gestützte Funktionen – Flow Builder, KI-generierte Produktbeschreibungen, intelligente Suche – die täglich von Hunderttausenden Händlern in ganz Europa genutzt werden. Das 21-köpfige Gradion-Ingenieurteam entwickelte diese Fähigkeiten als produktionsreife Funktionen innerhalb der Plattform, nicht als Prototypen. Die Zusammenarbeit reduzierte Shopwares Entwicklungskosten (COGS) um etwa 40 %.

Procelo – Kosten-effizienter KI-Agent in 8 WochenProcelo beauftragte Gradion mit der Machbarkeitsprüfung und Entwicklung eines KI-Agenten für die automatisierte Datenanalyse. Eine Kosten- und Latenzanalyse war ein zentrales Ergebnis – denn ein Modell, das zwar korrekt läuft, aber ein unpassendes Kostenprofil aufweist, ist kein tragfähiges Produkt. Der Agent erreichte innerhalb eines achtwöchigen Engagements eine SQL-Abfragegenauigkeit von über 80 % über komplexe ERP-Schemata hinweg.

Alle Zahlen stammen aus laufenden Projekten. Weitere Referenzen sind unter NDA verfügbar.

Vorgelagerte Datenqualität

MLOps-Analysen zeigen manchmal, dass der Engpass nicht das Modell oder die Pipeline ist, sondern die Daten, die sie speisen. Inkonsistente Schemata, fragmentierte Quellen und undokumentierte Transformationen beeinträchtigen die Modellleistung, unabhängig davon, wie gut die ML-Infrastruktur aufgebaut ist.

Wo die Datenqualität der limitierende Faktor ist, setzen wir die Data-Engineering-Expertise von Gradion ein, um das Fundament zu stabilisieren, bevor wir darauf aufbauen.

KI vom Pilotprojekt in die Produktion bringen. Und dort halten.