SRE: Software Engineering für IT-Operations
Site Reliability Engineering (SRE) ist ein DevOps-Ansatz von Google. Er betrachtet IT-Operations als Softwareaufgabe, die mit Software Engineering zu lösen ist. So entstehen optimierte Prozesse und Systeme, die das Risiko von Fehlern berücksichtigen und damit umgehen können. Continuous Delivery spielt dabei eine zentrale Rolle: Das regelmäßige Ausrollen vieler kleiner Releases senkt das Risiko der einzelnen Entwicklungsschritte. Zudem werden im SRE alle Tasks so geplant, dass Zeit für Verbesserungen und die Automatisierung wiederkehrender Aufgaben bleibt.
Bei ConSol ist Site Reliability Engineering fest in den Betriebsprozessen verankert: Erfahrene Software Engineers arbeiten Hand in Hand mit dem IT-Operations-Team. Gleichzeitig bringen unsere Cloud- und Monitoring-Experten proaktiv ihr Spezialwissen ein. Denn das zentrale Ziel von SRE ist auch unseres:
Je mehr Betriebsthemen wir durch Softwarewerkzeuge und Automatisierung abdecken können, desto deutlicher sinkt die Arbeitslast in Weiterentwicklung und Betrieb. Auch auf lange Sicht.
Site Reliability Engineering in Kürze
Ein SRE-Team setzt sich aus Software Engineers zusammen und kümmert sich um den Produktivbetrieb von Services.
Im klassischen Betrieb steigt die Arbeitslast linear mit der Anzahl / Größe der Services. Gerade in modernen Microservice-Architekturen ist der klassische Betriebsansatz damit nicht mehr praktikabel. Site Reliability Engineering löst Betriebsaufgaben daher mit Software und nicht manuell. Je mehr Softwarelösungen dabei zum Einsatz kommen, desto deutlicher sinkt die Arbeitslast.
Es gibt verschiedene Möglichkeiten, diese Teams zu organisieren. Google setzt auf drei Säulen: Der Anteil der Zeit, die die Site Reliability Engineers mit manuellen Aufgaben verbringen, wird begrenzt – damit haben sie Kapazität für die Entwicklung von SRE-Werkzeugen. Bereitschaftsdienste werden so professionell organisiert, dass im Fehlerfall genügend Zeit für eine gründliche Post-Mortem-Analyse ist. Error-Budgets stellen sicher, dass die Entwickler eines Service und das SRE-Team an einem Strang ziehen, wenn es um die Risiko-Einschätzung beim Go-Live neuer Features geht.
SRE-Teams übernehmen Verantwortung für die Verfügbarkeit, Latenz, Performance, Effizienz, das Deployment, Monitoring sowie die Emergency Response und Kapazitätsplanung der Services.
SRE Know-how bei ConSol
ConSol deckt mit seinen vier Bereichen Software Engineering, Cloud-Beratung, IT-Operations und Monitoring alle Aspekte des Site Reliability Engineering ab.
Projekt-Steckbriefe
ConSol steht für technologische Exzellenz und praktische Expertise. Wir schöpfen aus drei Jahrzehnten branchenübergreifender Projekterfahrung – im Mittelstand genauso wie bei DAX-Konzernen und anderen Schwergewichten. So unterstützen wir Sie bei wichtigen Softwarearchitektur-Entscheidungen und stellen Ihre Lösung auf ein solides, zukunftssicheres Fundament.
Technologien / Kompetenzen
