SRE Engineer (Observability) – Rio de Janeiro

#Conheça um pouco sobre a área:

 

O propósito da squad de SRE é prover serviços da nossa plataforma de Growth Intelligence em ambientes de produção na AWS com a maior confiabilidade e resiliência possível, apoiando squads de desenvolvimento e dados, promovendo a cultura DevOps.

 

Aqui você terá como desafios a criação, gerenciamento e monitoramento da infraestrutura cloud, garantindo escalabilidade, eficiência operacional e provendo autonomia com automação para os squads de engenharia no uso de ferramentas e processos.

 

Além disso, você nos apoiará na evolução de uma operação e desenvolvimento orientado à observabilidade, utilizando métricas de infraestrutura, negócios e definição de níveis de serviços.

✔️ #Conhecimentos importantes para a posição:

 

  • Experiência na implementação e uso de ferramentas de monitoria e observação como: Datadog, X-Ray, Grafana, Graylog, Prometheus, OpenTelemetry, Stack ELK;
  • Entende e aplica diariamente os conceitos de observabilidade no desenvolvimento e implementação de infraestrutura, trazendo a visão de performance e disponibilidade dos nossos microsserviços.
  • Experiência na evolução e monitoramento depipelines de CI/CD;
  • Integração e configuração de serviços como: GitHub Actions, ECS, Kubernetes;
  • Experiência com ambientes, arquiteturas e serviços cloud na Amazon Web Services (AWS);
  • Experiência com ferramentas de gerenciamento de configurações, automação e infraestrutura como código (Ansible, Terraform);
  • Bons conhecimentos em Linux (Amazon Linux, CentOS, Debian);
  • Habilidade com programação de scripts (Bash, Python) para automação de tarefas e resolução de problemas de operação;
  • Ter proficiência em gestão de containers;
  • Boas práticas de gestão e versionamento de código (GIT);
  • Consegue traduzir para requisitos/processos de operação uma entrega em produção ou manutenção do ciclo de vida de um microsserviço, considerando planejamento da entrega, escalabilidade, deploy, rollback etc…
  • Aplica em seu dia-dia e consegue promover a cultura DevOps nos squads de engenharia;
  • Utiliza métricas para apoio na resolução de problemas de performance e escalabilidade;

 

⭐ #Diferencial para a posição:

 

  • Experiência na implementação de ferramentas opensource para coleta e consumo de métricas de infraestrutura e aplicações em sistemas altamente distribuídos;
  • Gerenciamento de clusters ELK (Elastic, Logstash, Kibana) com alta disponibilidade;
  • Já atuou em iniciativas conjuntas de teste de carga de sistemas com foco nas definições de limites de uso, thresholds e melhoria de monitoração;
  • Planejamento e execução de Disaster Recovery Plan (DRP) em ambientes críticos.

#Desafios que você vai encontrar:

 

  • Contribuir na implementação do fluxo de desenvolvimento e operação orientado à observabilidade, adotando ferramentas, garantindo métricas de disponibilidade, desempenho e indicadores de serviço (SLI, SLO, SLA) considerando os pilares: Logs, Métricas e Tracing;
  • Implementar visão de monitoramento dos Golden Signals para os principais serviços da Cortex;
  • Visão holística da stack de serviços Cortex visando a melhoria contínua de nosso monitoramento/observação e como tornar ações mais proativas na resolução de problemas, antecipando-se a falhas;
  • Definir estratégias e integrar ferramentas para monitoramento centralizado em dashboards para consumo dos times de desenvolvimento, suporte e SRE;
  • Apoiar na definição, implementação e evolução de arquitetura cloud (AWS) da plataforma Cortex, considerando boas práticas de deploy, infraestrutura como código (IAC), pipelines (CI/CD), monitoramento, performance e escalabilidade;
  • Entender necessidades dos squads de engenharia, garantindo requisitos de operação, apoiando na evolução dos ambientes de teste e desenvolvimento;
  • Atuar em rotinas de troubleshoot e depuração de aplicações Cortex e serviços cloud em conjunto com squads de serviços;
  • Contribuir para adoção de uma cultura devops nos squads de Engenharia;
  • Garantir a qualidade e padronização das entregas através de automatização de tarefas rotineiras e operacionais, participação em postmortem, capacity planning e migrations planning.

Rio de Janeiro – Rio de Janeiro