Die neue Rolle von KI-Agenten im Site Reliability Engineering (SRE)

4. Mai 2026

Manu Gurudatha

https://www.pagerduty.com/

Manu Gurudatha ist Vice President of Engineering bei PagerDuty. Dort verantwortet er die Entwicklung der Plattformen für Incident Management, AIOps, CSOps, Statusseiten sowie Growth und Insights, die die End-to-End-Customer-Journeys von PagerDuty ermöglichen.

Während Entwickler weltweit neue KI-Modelle trainieren und kontinuierlich verbessern, liegt eine der spannendsten und oft unterschätzten Chancen ganz woanders: im Maschinenraum moderner Plattformen. Doch allzu oft wird KI im SRE-Kontext wie jedes andere Tool behandelt – als aufgesetzte Ergänzung, nicht als strategisches Element. Der eigentliche Hebel liegt vielmehr darin, grundlegend zu überdenken, welche Rolle die Automatisierung einer Plattform spielt und was sie leisten soll.

KI im SRE-Kontext bedeutet nicht nur schnellere Analysen oder intelligentere Alerts. Sie beeinflusst, wie die Zuverlässigkeit der IT-Systeme gestaltet wird, nämlich weg vom reaktiven Eingreifen, hin zu selbstoptimierenden, lernenden Systemen. Unternehmen, die KI als reines Add-on betrachten, verschenken erhebliches Potenzial. Wer sie hingegen als strategisches Element der Plattformautomatisierung und integralen Bestandteil eines Teams versteht, kann Zuverlässigkeit, Effizienz und Innovationsgeschwindigkeit neu definieren.

Softwareentwickler setzen zurzeit noch stark auf KI-Tools, um Routineaufgaben und die Bereitstellung zu beschleunigen. SREs aber stehen vor einer komplexen Herausforderung. Sie müssen eine wachsende Flut von KI-generiertem Code verwalten, ohne dabei Engpässe oder neue Risiken herbeizuführen.

KI bietet eine Vielzahl von Tools für die Diagnose, Triage und Behebung von Problemen. Doch KI kann noch mehr. Sie ermöglicht den Wandel von der reinen Bekämpfung von IT-Problemen hin zu einer Umgebung, die in der Lage ist, Probleme zu antizipieren und zu beheben, bevor sie eskalieren.

Dieses Ziel wird dann erreicht, wenn KI in die zentralen SRE-Workflows integriert wird. Das bedeutet jedoch auch, dass die Arbeitsweise von SREs und deren Zusammenarbeit im Team neu überdacht werden sollte.

Code als Ausgangspunkt

Die Bedeutung von KI in der Softwareentwicklung nimmt zu, doch bislang setzen SRE-Teams sie nur eingeschränkt und lediglich in begrenzten Szenarien ein. Die Codegenerierung ist der häufigste Anwendungsfall für KI-Agenten, gefolgt von Dokumentation und der Erstellung von Code-Vorschlägen.

Zudem kommt KI bei der Automatisierung komplexer und wiederkehrender Aufgaben zum Einsatz. Die Aktualisierung von Abhängigkeiten oder das Patchen und Ändern von Konfigurationen nehmen viel Zeit in Anspruch und bieten keinen direkten strategischen Mehrwert. Außerdem bergen sie das Risiko menschlicher Fehler. KI-Agenten hingegen können automatisch Pull Requests erstellen, Patches einspielen und Versionsaktualisierungen durchführen, sodass sich SREs auf strategisch wichtige Aufgaben konzentrieren können.

Im Zusammenhang mit dem steigenden Alertzahlen kann KI auch eingesetzt werden, um Muster zu analysieren und Ereignisse zu korrelieren, so dass nur die wichtigsten Warnmeldungen priorisiert werden. KI kann die Informationen liefern, die SREs dafür benötigen, sodass sie nicht auf jede Schwellenwertüberschreitung oder jeden Messwertanstieg reagieren müssen.

Das ist KI in ihrer eingeschränktesten Form: hilfreich in Einzelfällen, aber noch weit vom Kern des SRE entfernt. Sie übernimmt keine eigenständige Diagnose, unterbricht nicht den Kreislauf endloser Alarmfluten und räumt nicht die Engpässe aus dem Weg, die durch fragmentierte, manuelle Prozesse entstehen. Sie hilft Teams allenfalls, damit zu leben.

Den Kern neu denken

Fokussierte Ingenieure nutzen KI-Agenten im Kommandozentrum für effektives Site Reliability Engineering (SRE).

Der Wandel von KI als Tool hin zu einem Enabler zentraler Aktivitäten erfordert eine Neubewertung der Arbeitsprozesse im Plattform-Engineering-Umfeld. Es geht darum, Workflows zu schaffen, in denen Menschen und KI-Agenten als Team zusammenarbeiten, anstatt einer Seite die gesamte Aufgabenlast zu übertragen. Wie kann das in der Praxis aussehen?

Bei Vorfällen können Agenten z.B. eine erste Analyse durchführen, um Systemdaten zu sammeln und auszuwerten sowie erste Schritte zur Diagnose und Fehlerbehebung einzuleiten. Durch die Anbindung von Monitoring-Systemen an KI-gesteuerte Prozesse müssen Erkennung und Reaktion nicht länger in den Alert-Kanälen versanden.

Zudem können Playbooks erstellt werden, die jene Punkte dokumentieren, an denen KI zusammen mit menschlichen Aktionen eingreift und handelt. So lässt sich eine geplante, konsistente und wiederholbare Abfolge von Prozessen festlegen mit dem Ergebnis, dass Probleme schneller gelöst bzw. angegangen werden können, bevor sie kritisch werden. Dieser Ansatz liefert zudem wertvollen Kontext für künftige ähnliche Vorfälle und etabliert eine Rückkopplungsschleife, die einen kontinuierlichen Lernprozess antreibt.

Von der Vision zur Praxis

Um KI als festen Bestandteil von SRE zu etablieren, sollte die KI-gesteuerte Automatisierung in die zentralen SRE-Workflows eingebettet werden, mit dem Ziel, eine Mensch-Maschine-Beziehung zu schaffen, von der SREs wirklich profitieren. Dies kann in drei Schritten erreicht werden:

Kultureller Wandel innerhalb der SRE-Teams

Es geht darum, sich weg von rein menschenzentrierten Workflows, hin zu mehr hybriden Abläufen zu bewegen. KI-Agenten werden dabei als aktive Teammitglieder behandelt, die innerhalb klar definierter Grenzen und Zuständigkeiten agieren. Sie sind für klar definierte Aufgaben verantwortlich, ohne dass der Mensch ständig eingreifen muss. Zum Beispiel können Agenten bei der ersten Fehlerbehebung innerhalb festgelegter Sicherheitsgrenzen autonom agieren und den ersten Bearbeitungsschritt bei Incidents übernehmen, bevor ein Teammitglied einbezogen wird. Playbooks würden entsprechend so angepasst, dass KI automatisch eine erste Analyse durchführt, Daten auswertet und vorläufige Diagnosen erstellt. SRE-Teammitglieder würden von der Sichtung unübersichtlicher Alerts und Log-Daten entlastet und könnten größere Probleme deutlich effizienter lösen.

Die KI-Umgebung als geschäftskritisches System behandeln

Was für Live-Produktionssysteme gilt, muss auch hier gelten: SREs tragen die Verantwortung für diese Umgebung und müssen sie mit denselben Standards beobachten, überwachen und kontrollieren. In einer KI-gestützten Welt bedeutet dies, dass die SREs die Fähigkeit erhalten, Abweichungen, unerwartetes Verhalten und fehlerhafte Ergebnisse rechtzeitig zu erkennen. Sie können z.B. mit klaren Richtlinien für Eingriffe und Rollbacks auf Probleme unmittelbar reagieren. Indem KI in die Kernprozesse einbezogen wird, lernen SREs, Agenten zu vertrauen, da sie diese überwachen und kontrollieren können.

Teams zukunftsfähig aufstellen

Klassische SRE-Kompetenzen allein reichen nicht aus, um das Potenzial einer KI-gestützten Umgebung voll auszuschöpfen. Es sollte eine dedizierte KI-SRE-Praxis etabliert werden, in der Ingenieure sich über die neuesten Fähigkeiten in Schlüsselbereichen wie Prompt Engineering, Validierung von Agenten und Observability von Modellen auf dem Laufenden halten können. Isolierte KI-automatisierte Projekte und Teams sollten zusammengeführt werden und die Befugnis erhalten, wiederverwendbare, KI-freundliche Workflows und Playbooks zu entwerfen, die plattformübergreifend funktionieren.

Der Erfolg wird nicht davon abhängen, welches Team die meisten KI-Tools einsetzt. Vielmehr wird er sich dort einstellen, wo Teams so aufgestellt und geschult sind, dass sie KI als strategischen Vorteil und nicht nur als taktische Erleichterung nutzen können.

Fazit
KI ist mehr als nur ein weiteres Tool, das SRE-Teams einführen können. Sie verändert grundlegend, wer und was die Arbeit erledigt. Teams, die KI lediglich als Ergänzung betrachten, erreichen bestenfalls schrittweise Verbesserungen.

Den entscheidenden Vorsprung werden jene Teams erzielen, die SRE von Grund auf neu denken – mit KI als zentralem Mitgestalter dafür, wie Zuverlässigkeit konzipiert, betrieben und kontinuierlich verbessert wird.