Site Reliability Engineer (m/w/d)
Stellenbeschreibung
Als Site Reliability Engineer in unserem Platform Squad wirst du eine Schlusselrolle dabei spielen, Flips Infrastruktur schnell, belastbar und bereit fur Skalierung zu halten. Du wirst die Reliability-Kultur, Tools und Praktiken gestalten, die es unseren Engineering-Teams ermoglichen, mit Vertrauen zu veroffentlichen - im groen Mastab und ohne Kompromisse bei der Verfugbarkeit. Diese Rolle ist perfekt fur einen Engineer mit Leidenschaft fur den Aufbau von Hochdurchsatz- und hochverfugbaren Systemen, der mitgestalten mochte, wie eine schnell wachsende SaaS-Plattform im Produktivbetrieb lauft.
Was dich bei uns erwartet
Skalierung ermoglichen: Erweitere und optimiere unsere Cloud-Infrastruktur auf Azure und unsere Kubernetes-Cluster - ausgelegt auf hohen Durchsatz und hochste Verfugbarkeit - um das schnelle weltweite Wachstum von Flip zu unterstutzen.
Resilienz & Sicherheit gewahrleisten: Entwirf und implementiere Zero-Downtime-Deployments, Rollback-Mechanismen und Disaster-Recovery-Strategien, die unsere Plattform rund um die Uhr verfugbar halten.
Observability schaffen: Entwickle unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir) weiter, um jedem Team die notige Sichtbarkeit zu geben - und nutze ihn, um unsere SLOs zu definieren und zu optimieren.
Alles automatisieren: Entwirf, entwickle und optimiere Infrastructure as Code mit Pulumi in Go, um manuellen Aufwand (Toil) zu eliminieren und unsere Plattform fur Engineering-Teams als Self-Service bereitzustellen.
Reliability-Praktiken vorantreiben: Fordere CI/CD Best Practices, Incident Management, Post-Mortems und Developer Experience in der gesamten Engineering-Organisation.
Unsere Roadmap gestalten: Arbeite mit deinem Squad und dem Engineering-Leadership zusammen, um die Richtung der Plattform zu definieren - von skalierbaren Hochdurchsatz-Systemen und Kostenoptimierung bis hin zu Security Posture und Compliance.
Was du mitbringst
Wir suchen einen Hands-on, produktorientierten Engineer mit einer Leidenschaft fur hochverfugbare Hochdurchsatz-Systeme - und dem Zuverlassigkeit genauso wichtig ist wie Geschwindigkeit.
Must-Have Qualifikationen
Du hast 1-3 Jahre Hands-on-Erfahrung als Site Reliability Engineer (SRE), Platform Engineer, DevOps Engineer, Infrastructure Engineer, Cloud Engineer oder Backend Engineer mit starkem Infrastruktur-Fokus.
Erfahrung im Betrieb und in der Skalierung von Cloud-Infrastrukturen (Azure, GCP, AWS).
Tiefe Kenntnisse in Kubernetes und Container-Orchestrierung in Produktionsumgebungen.
Hands-on-Erfahrung mit modernen Observability-Stacks (z. B. Prometheus, Mimir, Loki, ELK) und vertraut mit der Definition und dem Betrieb von SLOs und Error Budgets.
Fundierte Software-Entwicklungskenntnisse in Go (bevorzugt, da unser IaC auf Pulumi in Go lauft), Python oder Kotlin.
Hands-on-Erfahrung mit Infrastructure as Code (z. B. Pulumi, OpenTofu, Terraform) und Konfigurations-Tools (z. B. Ansible, Chef).
Ein kollaboratives Mindset, starke Kommunikationsfahigkeiten und verhandlungssicheres Englisch.
Bereitschaft zur Teilnahme an On-Call-Rotationen (Rufbereitschaft), um die Zuverlassigkeit unserer Plattform zu gewahrleisten.
Nice-to-Have Qualifikationen
Erfahrung im Aufbau und Betrieb von Hochdurchsatz- und hochverfugbaren Systemen im Produktivbetrieb.
Speziell Erfahrung mit Azure Kubernetes Service (AKS).
Erfahrung mit Kubernetes Gateway API und Envoy Gateway.
Vertrautheit mit GitOps-Workflows und CI/CD-Pipeline-Design.
Kenntnisse in Service-Mesh-Technologien (z. B. Linkerd, Istio).
Erfahrung mit Kubernetes Operators (z. B. Strimzi, CNPG).
Erfahrung mit dem Betrieb von High-Availability PostgreSQL.