Estamos em busca de um Coordenador de SRE e Operação para liderar nossa equipe na construção e manutenção de plataformas escaláveis, confiáveis e seguras. O profissional será responsável por garantir a estabilidade, a observabilidade e a automação dos ambientes de produção, além de otimizar processos de deployment e infraestrutura em cloud.
Responsabilidades:
• Liderar a equipe de SRE e Operação, garantindo boas práticas e alta disponibilidade dos serviços.
• Liderar a automação de processos operacionais e reduzir a necessidade de intervenção manual.
• Garantir a resiliência e escalabilidade dos ambientes utilizando Kubernetes e Cloud (AWS, OCI).
• Desenvolver e manter infraestrutura como código (IaC) usando Terraform, CloudFormation ou similares.
• Garantir melhorias nos pipelines de CI/CD para otimizar entregas de software seguras e eficientes.
• Trabalhar na resposta a incidentes e aprimorar processos de mitigação de falhas.
• Colaborar com times de desenvolvimento para melhorar a confiabilidade dos sistemas.
Requisitos:
• Sólidos conhecimentos em automação e scripts (Python, Bash, etc.).
• Experiência em Cloud Computing (AWS, OCI ou Azure).
• Domínio em Kubernetes (deployments, escalabilidade, troubleshooting).
• Conhecimento em Infraestrutura como Código (IaC) (Terraform, Ansible).
• Experiência com pipelines CI/CD (Jenkins, GitHub Actions, GitLab CI, ArgoCD, etc.).
• Habilidade para troubleshooting e resposta a incidentes.
• Experiência em liderança técnica e gestão de times de operação.
#LI-DNI