Devoteam est un leader du conseil en stratégie digitale, plateformes technologiques, cybersécurité et business transformation. Avec 10 000 collaborateurs en EMEA, nous accompagnons les entreprises en mettant depuis plus de 25 ans la Technologie au service de l’Homme. En France, nous sommes 4500 Digital Architects répartis dans + de 50 tribus d’expertises et coachés par + de 400 managers experts. Nous rejoindre c’est : travailler sur des projets innovants et durables, se certifier en continu sur les nouvelles tech du marché et partager des moments uniques entre collègues ! Pour en découvrir plus sur Devoteam, rendez-vous ici.
Devoteam Toulouse, avec ses 200 collaborateurs, est un acteur incontournable de la transformation digitale sur le bassin toulousain. Notre équipe de consultants experts accompagne nos clients dans la réalisation de leurs projets technologiques les plus ambitieux, en s’appuyant sur notre expertise en cloud & devOps, cybersécurité, gestion de projet et développement agile.
Notre communauté DevOps, Hybridation & Cloud accompagne nos clients afin de libérer le potentiel de leur Système d'Information.Nos experts en Architecture, DevOps, Cloud et Automation les accompagnent dans leur transformation numérique et leur permettent d'innover plus rapidement grâce à aux technologies de pointe et des stratégies éprouvées.
Job DescriptionVos objectifs :
Assurer la fiabilité, la performance et l'évolutivité des systèmes de production.Collaborer étroitement avec les équipes de développement et d'opérations pour mettre en œuvre les meilleures pratiques SRE et réduire le "toil" (travail manuel répétitif).Vos missions :
Fiabilité des Systèmes:
Surveiller et gérer la fiabilité des services et applications en production.Définir et maintenir les indicateurs clés de performance (KPIs) et les objectifs de niveau de service (SLOs).Répondre aux incidents, mener des analyses de causes profondes (RCA) et rédiger des post-mortems.Automatisation et Infrastructure:
Automatiser les tâches manuelles et répétitives pour réduire le "toil".Développer et maintenir l'infrastructure en tant que code (IaC) avec des outils comme Terraform et Ansible.Mettre en œuvre et gérer des pipelines CI/CD et des pratiques GitOps.Observabilité et Surveillance:
Mettre en place des outils de surveillance et d'observabilité (par exemple, Prometheus, Grafana, ELK, Datadog).Surveiller les "quatre signaux d'or" : latence, trafic, erreurs et saturation.Configurer des alertes et des notifications pour les incidents potentiels.Collaboration et Communication:
Travailler en étroite collaboration avec les équipes de développement et d'opérations.Promouvoir une culture "blameless" (sans culpabilité) pour l'analyse des incidents et l'apprentissage.Communiquer efficacement avec les parties prenantes sur les questions de fiabilité et de performance.QualificationsExpérience Requise:
Expérience en administration système (SysAdmin/SysOps) avec une orientation vers l'architecture.Expérience en développement ou DevOps avec une orientation vers l'architecture.Expérience en production.Compétences Techniques:
Systèmes d'Exploitation: Linux (administration).Cloud Computing: AWS, GCP, Azure.Automatisation et Configuration: Ansible, Terraform, Puppet, Chef, SaltStack.Scripting: Python, Bash, NodeJS.CI/CD et GitOps: GitLab, GitHub, FluxCD, ArgoCD.Observabilité et Surveillance: Prometheus, Grafana, ELK, DataDog.Bases de Données: Connaissance de DBA Oracle.Versioning: GIT.Compétences Fonctionnelles:
Compréhension des principes et pratiques SRE.Connaissance des différences entre SRE et DevOps.Capacité à mesurer et gérer la performance et la fiabilité des services.Expérience dans la gestion des incidents et la rédaction de post-mortems.Aptitude à identifier et réduire le "toil".Esprit d'équipe et capacité à collaborer efficacement.Ouverture d'esprit et volonté d'apprendre de nouvelles technologies et méthodes.Force de persuasion.Mentalité axée sur la qualité de service (QoS).Esprit d'équipe et responsabilité collective.Additional Information