SRE: Site Reliability Engineering

Software
Engineering
für IT-Operations

Mehr automatisierte Softwareprozesse und weniger Arbeitslast in Weiterentwicklung und Betrieb, dafür steht Site Reliability Engineering. Durch SRE, einen DevOps-Ansatz von Google, entstehen optimierte Prozesse und Systeme, die das Risiko von Fehlern berücksichtigen und damit umgehen können. Eine zentrale Rolle spielt dabei Continuous Delivery, die kontinuierliche Auslieferung vieler kleiner Releases, um das Risiko in der Entwicklung zu minimieren. Zudem werden im SRE alle Tasks so geplant, dass Zeit für Verbesserungen und die Automatisierung wiederkehrender Aufgaben bleibt.

Bei ConSol ist Site Reliability Engineering fest in den Betriebsprozessen verankert: Erfahrene Software Engineers arbeiten Hand in Hand mit dem IT-Operations-Team. Gleichzeitig bringen unsere Cloud- und Monitoring-Experten proaktiv ihr Spezialwissen ein.

Site Reliability Engineering in Kürze

Was macht ein Site Reliability Engineering Team?

Ein SRE-Team setzt sich aus Software Engineers zusammen und kümmert sich um den Produktivbetrieb von Services.

Warum Software Engineers statt Sysadmins?

Im klassischen Betrieb steigt die Arbeitslast linear mit der Anzahl / Größe der Services. Gerade in modernen Microservice-Architekturen ist der klassische Betriebsansatz damit nicht mehr praktikabel. Site Reliability Engineering löst Betriebsaufgaben daher mit Software und nicht manuell. Je mehr Softwarelösungen dabei zum Einsatz kommen, desto deutlicher sinkt die Arbeitslast.

Wie ist ein SRE-Team organisiert?

Es gibt verschiedene Möglichkeiten, diese Teams zu organisieren. Google setzt auf drei Säulen: Der Anteil der Zeit, die die Site Reliability Engineers mit manuellen Aufgaben verbringen, wird begrenzt – damit haben sie Kapazität für die Entwicklung von SRE-Werkzeugen. Bereitschaftsdienste werden so professionell organisiert, dass im Fehlerfall genügend Zeit für eine gründliche Post-Mortem-Analyse ist. Error-Budgets stellen sicher, dass die Entwickler eines Service und das SRE-Team an einem Strang ziehen, wenn es um die Risiko-Einschätzung beim Go-live neuer Features geht.

Welche Verantwortungsbereiche hat das Team?

SRE-Teams übernehmen Verantwortung für die Verfügbarkeit, Latenz, Performance, Effizienz, das Deployment, Monitoring sowie die Emergency Response und Kapazitätsplanung der Services.

Mehr als
200 Kund*innen
vertrauen ConSol
in Sachen
IT & Software

Zu unseren Kunden-Stories

Flexibilität, Automatisierung und die vernetzte Zusammenarbeit von Development-, Operations-, Cloud- und Monitoringexperten sind in unserer digitalisierten Welt Trumpf. Denn so lassen sich Neuentwicklungen schnell und risikoarm zur Marktreife bringen, und der Aufwand für ihre Weiterentwicklung und ihren Betrieb sinkt. Darum leben wir bei ConSol Site Reliability Engineering.

Oliver Weise
Head of Platform Engineering

Kennenlern-Termin vereinbaren

SRE Know-how bei ConSol

SRE-Praxistipps

Endpunkte für Liveness- und Readiness-Probes sind oft sehr einfach implementiert: Sie antworten mit 200 OK, sobald die Applikation gestartet ist. Wir haben in Projekten die Erfahrung gemacht, dass das nicht ausreicht. Deshalb sind wir dazu übergegangen, mit Hilfe von Health Checks die Erreichbarkeit aller angrenzenden Systeme und Message Queues zu testen. Damit können wir Probleme bereits beim Deployment erkennen und im Idealfall automatisiert beheben.

In einem Projekt führte ein Problem mit EJB Timer Services dazu, dass die Transaktion nach jedem Lauf zurückgerollt wurde. Sofern einer der nächsten Läufe erfolgreich ist, ist dieser Vorgang an sich unproblematisch. Um herauszufinden, ob es sich um erwartete Rollbacks oder echte Fehler handelt, haben wir eine Metrik implementiert, die die Zeit seit dem letzten erfolgreichen Lauf misst. Dadurch konnten wir temporäre Fehler von dauerhaften Fehlern unterscheiden.

Bei Java Applikationen lohnt es sich, regelmäßig Thread Dumps zu ziehen. Die Thread Dumps helfen bei der Post-Mortem-Analyse und beim Profiling. Zum Beispiel bringt es die Entwicklung der Thread Dumps schnell ans Licht, wenn ein externes System blockiert ist und dadurch ständig neue Threads mit blockierten Aufrufen gestartet werden. Insbesondere ist es empfehlenswert, zwei bis drei Thread Dumps im Stopp-Script zu ziehen, um nach einem Neustart der Applikation zu analysieren, wie der Zustand zuvor war.

Logging Frameworks bieten mit dem Mapped Diagnostic Context (MDC) die Möglichkeit, Informationen wie z.B. den Usernamen standardmäßig mitzuloggen. Dadurch lässt sich bei der Loganalyse nachvollziehen, welche Logzeilen zusammengehören. Die MDC-Daten sind jedoch nicht immer verfügbar, wenn der User beispielsweise noch nicht ermittelt ist. Deshalb lohnt es sich, zusätzlich den Thread ins Logformat aufzunehmen. Der Thread bietet eine sichere und einfache Möglichkeit nachzuvollziehen, welche Logzeilen zum selben Request gehören.

In einem Projekt aus der Telekommunikationsbranche standen wir vor der Herausforderung, dass viele Microservices denselben Endpunkt aufriefen, die Gesamtzahl der Aufrufe dabei aber einen bestimmten Schwellwert pro Sekunde nicht überschreiten durfte. Dies haben wir gelöst, indem wir Zookeeper zur Koordination der Aufrufe eingesetzt haben. Der Vorteil: Wir konnten ein zentrales Koordinationssystem als Single Point of Failure vermeiden.

Manuelle Schritte beim Build und Deployment sind eine häufige Fehlerquelle. Hier lohnt es sich, alles zu automatisieren. Moderne CI/CD-Pipelines verringern nicht nur das Fehlerrisiko, sondern nehmen den SREs auch lästige wiederkehrende Aufgaben ab.

Die größte Herausforderung bei Lasttests ist das Erzeugen realistischer Testdaten. Dazu gehört nicht nur der Inhalt der Daten. In einem großen Migrationsprojekt haben wir die Erfahrung gemacht, dass sich die Art der Fragmentierung von Daten in einer Datenbank erheblich auf die Performance auswirken kann. Dass wir dies bereits in der Phase der Lasttests feststellten, war für das Projekt erfolgsentscheidend.

Je mehr Messpunkte eine Applikation hat, desto besser. Das hilft nicht nur im Betrieb. Lasttests sind beispielsweise erheblich wertvoller, wenn sie nicht nur zeigen, ob ein Service die SLOs einhält, sondern auch, wo potenzielle Bottlenecks sind.

Software Engineers verwenden gerne moderne Design Patterns wie Circuit Breaker. Um Überlast zu vermeiden, sollten Sie aber auch die klassischen Konfigurationsmöglichkeiten nicht aus den Augen verlieren. Poolgrößen in Java-Application-Servern sollten beispielsweise so ausgelegt sein, dass bei einer unerwarteten Lastspitze der Anschlag möglichst weit "vorn" erreicht wird und nachgelagerte Komponenten nicht überlastet werden.

Site Reliability Engineers müssen sich mit dem Normalverhalten ihrer Services vertraut machen und ihre Logs regelmäßig prüfen. Andernfalls geht im Fehlerfall viel Zeit dabei verloren, Merkwürdigkeiten nachzugehen, die mit der akuten Störung gar nichts zu tun haben.

Site Reliability Engineering: Technologien & Kompetenzen

Internet of Things: Definition, Funktionsweise, Technologien und Anwendungsfälle

Wir erklären Ihnen, was hinter dem Begriff Internet of Things (IoT) steckt und gehen auf Funktionsweise, Technologien & Anwendungsbeispiele ein.

BMW Group Connected Drive: Softwareupdates für Millionen Fahrzeuge

Mit Umstellung des Message-Brokers auf SQS-Queues gewann das Produkt Remote Software Upgrade enorm an Stabilität, Verfügbarkeit & Geschwindigkeit.

Applikations-Landschaft effizient modernisieren mit Microservices

Die ConSol Microservice Factory kompakt in 4 Minuten erklärt - inklusive Infos aus erfolgreichen Kundenprojekten.

Noch Fragen rund um SRE für optimierte Prozesse & Systeme?

Lassen Sie uns sprechen!

Marc Mühlhoff

# IT Ops

# Observability

# Cloud Services

+49-211-339903-74

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Website
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	Session	HTTP	Website
_pk_id	Wird verwendet, um ein paar Details über den Benutzer wie die eindeutige Besucher-ID zu speichern.	13 Monate	HTML	Matomo
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	HTML	Matomo
_pk_ses	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo
_pk_cvar	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo
_pk_hsr	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo

Name	Zweck	Ablauf	Typ	Anbieter
_gcl_au	Wird von Google AdSense zum Experimentieren mit Werbungseffizienz auf Webseiten verwendet.	3 Monate	HTML	Google
AMP_TOKEN	Enthält ein Token, das verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Service abzurufen. Andere mögliche Werte zeigen Opt-out, Anfrage im Gange oder einen Fehler beim Abrufen einer Client-ID vom AMP Client ID Service an.	1 Jahr	HTML	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	2 Jahre	HTML	Google
_ga	Wird verwendet, um Benutzer zu unterscheiden.	2 Jahre	HTML	Google
_gat	Wird zum Drosseln der Anfragerate verwendet.	1 Tag	HTML	Google
_gid	Wird verwendet, um Benutzer zu unterscheiden.	1 Tag	HTML	Google
_ga_--container-id--	Speichert den aktuellen Sessionstatus.	2 Jahre	HTML	Google
_gac_--property-id--	Enthält Informationen zu Kampagnen für den Benutzer. Wenn Sie Ihr Google Analytics- und Ihr Google Ads Konto verknüpft haben, werden Elemente zur Effizienzmessung dieses Cookie lesen, sofern Sie dies nicht deaktivieren.	3 Monate	HTML	Google
UserMatchHistory	Mit diesem Cookie werden die IDs von LinkedIn Ads synchronisiert.	30 Tage	HTML	LinkedIn
AnalyticsSyncHistory	Mit diesem Cookie wird der Zeitpunkt der Synchronisierung mit dem Cookie "lms_analytics" bei Nutzer:innen in den designierten Ländern gespeichert.	30 Tage	HTML	LinkedIn
li_oatml	Mit diesem Cookie werden LinkedIn Mitglieder außerhalb von LinkedIn zu Werbe- und Analysezwecke außerhalb der designierten Länder und für begrenzte Zeit auch für Werbezwecke in den designierten Ländern identifiziert.	30 Session	HTML	LinkedIn
lms_ads	Mit diesem Cookie werden LinkedIn Mitglieder außerhalb von LinkedIn in den designierten Ländern zu Werbezwecken identifiziert.	30 Tage	HTML	LinkedIn
lms_analytics	Mit diesem Cookie werden LinkedIn Mitglieder in den designierten Ländern zu Analysezwecken identifiziert.	30 Tage	HTML	LinkedIn
li_fat_id	Bei diesem Cookie handelt es sich um eine indirekte Mitgliederkennung, die für Conversion-Tracking, Retargeting und Analysen verwendet wird.	30 Tage	HTML	LinkedIn
li_sugr	Mit diesem Cookie werden wahrscheinlichkeitstheoretische Übereinstimmungen der Identität eines Nutzers außerhalb der designierten Länder festgestellt.	90 Tage	HTML	LinkedIn
U	Bei diesem Cookie handelt es sich um eine Browserkennung für Nutzer außerhalb der designierten Länder.	3 Monate	HTML	LinkedIn
_guid	Mit diesem Cookie wird ein LinkedIn Mitglied für Werbung über Google Ads identifiziert.	90 Tage	HTML	LinkedIn
BizographicsOptOut	Mit diesem Cookie wird der Ablehnungsstatus für das Tracking durch Drittanbieter ermittelt.	10 Jahre	HTML	LinkedIn
li_giant	Indirekte Kennung für Gruppen von LinkedIn Mitgliedern, die für das Conversion-Tracking verwendet wird	7 Tage	HTML	LinkedIn
poptin_d_a_x_v_26e98d74588a8	Alle paar Tage einmal angezeigt.	1 Jahre	HTML	Poptin
poptin_o_a_d_26e98d74588a8	Poptin einmal am Tag.	1 Tage	HTML	Poptin
poptin_o_a_v_9296a6dd8d5a5	Poptin einmal pro Besuch.	30 Minuten	HTML	Poptin
poptin_o_v_9296a6dd8d5a5	Zur Zählung der monatlichen Besucher.	30 Minuten	HTML	Poptin
poptin_c_p_o_x_c_9c53b8d57bfa6	Nach Klick auf den X Button.	1 Tage	HTML	Poptin
poptin_old_user	Zum Identifizieren eines alten Besuchers.	2 Tag	HTML	Poptin
poptin_new_user	Zum Identifizieren eines neuen Besuchers.	Session	HTML	Poptin
poptin_referrer	Original referrer.	5 Minuten	HTML	Poptin
poptin_user_country_code	Ländercode des Benutzers speichern.	1 Jahre	HTML	Poptin
poptin_user_id	Einzigartige Besucher id.	1 Jahre	HTML	Poptin
poptin_user_ip	Speichert die IP Adresse des Benutzers.	1 Jahre	HTML	Poptin
poptin_conversion_70909792ed454	Nach einer Poptin Conversion.	1 Jahre	HTML	Poptin
poptin_session	Poptin-Sitzung für Poptin-Anzeigeeinstellungen.	30 Minuten	HTML	Poptin
laravel_session	Sicherheitszweck.	2 Stunden	HTML	Poptin
XSRF-TOKEN	Sicherheitszweck.	2 Stunden	HTML	Poptin
poptin_session_account_fad535548c123	Zählt Besucher pro Unterkonto.	Session	HTML	Poptin
poptin_session_account_time	Zeitverzögerungsauslöser auf der Website.	Session	HTML	Poptin
poptin_c_visitor	Besucherzahl pro Kunde (gesamtes Konto).	Session	HTML	Poptin
poptin_c_new_visitor	Besucherzahl pro Kunde (gesamtes Konto).	30 Tage	HTML	Poptin

Innovative Produktlösungen - mit Open Source

Exzellente Lösungskompetenz - dank starker Partner

SRE: Site Reliability Engineering

Software
Engineering
für IT-Operations

Site Reliability Engineering in Kürze

Was macht ein Site Reliability Engineering Team?

Warum Software Engineers statt Sysadmins?

Wie ist ein SRE-Team organisiert?

Welche Verantwortungsbereiche hat das Team?

SRE Know-how bei ConSol

SRE-Praxistipps

Site Reliability Engineering: Technologien & Kompetenzen

Internet of Things: Definition, Funktionsweise, Technologien und Anwendungsfälle

BMW Group Connected Drive: Softwareupdates für Millionen Fahrzeuge

Applikations-Landschaft effizient modernisieren mit Microservices

Noch Fragen rund um SRE für optimierte Prozesse & Systeme?

Portfolio

Unternehmen

Service

Custom IT-Solutions

IT Consulting & Design

Build & Operate

Innovate & Empower

Unsere Kunden

Product Solutions

Innovative Produktlösungen - mit Open Source

Openshift-Beratung

Open Source Monitoring

Integration-Testing

Exzellente Lösungskompetenz - dank starker Partner

SRE: Site Reliability Engineering

Software Engineering für IT-Operations

Site Reliability Engineering in Kürze

Was macht ein Site Reliability Engineering Team?

Warum Software Engineers statt Sysadmins?

Wie ist ein SRE-Team organisiert?

Welche Verantwortungs­bereiche hat das Team?

SRE Know-how bei ConSol

Software Engineering für exzellente IT-Lösungen

Cloud-Solutions: Rundum-Expertise in der Cloud

Open-Source Monitoring

IT Operations – wenig Störungen, ruhige Nächte

IT Automation Trainings – Fehleranfälligkeit von IT-Systemen minimieren

IT Security Beratung und Services

SRE-Praxistipps

Site Reliability Engineering: Technologien & Kompetenzen

Internet of Things: Definition, Funktionsweise, Technologien und Anwendungsfälle

BMW Group Connected Drive: Softwareupdates für Millionen Fahrzeuge

Applikations-Landschaft effizient modernisieren mit Microservices

Noch Fragen rund um SRE für optimierte Prozesse & Systeme?

Portfolio

Unternehmen

Service

Software
Engineering
für IT-Operations

Welche Verantwortungsbereiche hat das Team?