Zum Hauptinhalt gehen
Erstellt am 13. Mai 2026

Site Reliability Engineer (m/w/d)

Flip App
Berlin, Berlin, Germany; Remote (Europe); Stuttgart, Baden-Wurttemberg, Germany Vollzeit
Reference: 102_699205_4848568101

Stellenbeschreibung

Als Site Reliability Engineer in unserem Platform Squad wirst du eine Schlusselrolle dabei spielen, Flips Infrastruktur schnell, belastbar und bereit fur Skalierung zu halten. Du wirst die Reliability-Kultur, Tools und Praktiken gestalten, die es unseren Engineering-Teams ermoglichen, mit Vertrauen zu veroffentlichen - im groen Mastab und ohne Kompromisse bei der Verfugbarkeit. Diese Rolle ist perfekt fur einen Engineer mit Leidenschaft fur den Aufbau von Hochdurchsatz- und hochverfugbaren Systemen, der mitgestalten mochte, wie eine schnell wachsende SaaS-Plattform im Produktivbetrieb lauft.

Was dich bei uns erwartet

  • Skalierung ermoglichen: Erweitere und optimiere unsere Cloud-Infrastruktur auf Azure und unsere Kubernetes-Cluster - ausgelegt auf hohen Durchsatz und hochste Verfugbarkeit - um das schnelle weltweite Wachstum von Flip zu unterstutzen.

  • Resilienz & Sicherheit gewahrleisten: Entwirf und implementiere Zero-Downtime-Deployments, Rollback-Mechanismen und Disaster-Recovery-Strategien, die unsere Plattform rund um die Uhr verfugbar halten.

  • Observability schaffen: Entwickle unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir) weiter, um jedem Team die notige Sichtbarkeit zu geben - und nutze ihn, um unsere SLOs zu definieren und zu optimieren.

  • Alles automatisieren: Entwirf, entwickle und optimiere Infrastructure as Code mit Pulumi in Go, um manuellen Aufwand (Toil) zu eliminieren und unsere Plattform fur Engineering-Teams als Self-Service bereitzustellen.

  • Reliability-Praktiken vorantreiben: Fordere CI/CD Best Practices, Incident Management, Post-Mortems und Developer Experience in der gesamten Engineering-Organisation.

  • Unsere Roadmap gestalten: Arbeite mit deinem Squad und dem Engineering-Leadership zusammen, um die Richtung der Plattform zu definieren - von skalierbaren Hochdurchsatz-Systemen und Kostenoptimierung bis hin zu Security Posture und Compliance.

Was du mitbringst

Wir suchen einen Hands-on, produktorientierten Engineer mit einer Leidenschaft fur hochverfugbare Hochdurchsatz-Systeme - und dem Zuverlassigkeit genauso wichtig ist wie Geschwindigkeit.

Must-Have Qualifikationen

  • Du hast 1-3 Jahre Hands-on-Erfahrung als Site Reliability Engineer (SRE), Platform Engineer, DevOps Engineer, Infrastructure Engineer, Cloud Engineer oder Backend Engineer mit starkem Infrastruktur-Fokus.

  • Erfahrung im Betrieb und in der Skalierung von Cloud-Infrastrukturen (Azure, GCP, AWS).

  • Tiefe Kenntnisse in Kubernetes und Container-Orchestrierung in Produktionsumgebungen.

  • Hands-on-Erfahrung mit modernen Observability-Stacks (z. B. Prometheus, Mimir, Loki, ELK) und vertraut mit der Definition und dem Betrieb von SLOs und Error Budgets.

  • Fundierte Software-Entwicklungskenntnisse in Go (bevorzugt, da unser IaC auf Pulumi in Go lauft), Python oder Kotlin.

  • Hands-on-Erfahrung mit Infrastructure as Code (z. B. Pulumi, OpenTofu, Terraform) und Konfigurations-Tools (z. B. Ansible, Chef).

  • Ein kollaboratives Mindset, starke Kommunikationsfahigkeiten und verhandlungssicheres Englisch.

  • Bereitschaft zur Teilnahme an On-Call-Rotationen (Rufbereitschaft), um die Zuverlassigkeit unserer Plattform zu gewahrleisten.

Nice-to-Have Qualifikationen

  • Erfahrung im Aufbau und Betrieb von Hochdurchsatz- und hochverfugbaren Systemen im Produktivbetrieb.

  • Speziell Erfahrung mit Azure Kubernetes Service (AKS).

  • Erfahrung mit Kubernetes Gateway API und Envoy Gateway.

  • Vertrautheit mit GitOps-Workflows und CI/CD-Pipeline-Design.

  • Kenntnisse in Service-Mesh-Technologien (z. B. Linkerd, Istio).

  • Erfahrung mit Kubernetes Operators (z. B. Strimzi, CNPG).

  • Erfahrung mit dem Betrieb von High-Availability PostgreSQL.

Jobbenachrichtigungen per Newsletter erhalten