Workshop: Data pipelines: Batch + Streaming com Beam e Scio

Sala: Workshop 3

Horário: 9:00am - 6:05pm

Dia da semana: Quarta-feira

Nível: Intermediário

Workshop em Português

Pontos principais

  • Aprender o que é o Apache Beam - e o Beam programming model
  • Aprender sobre as abstrações do Scio - wrapping library sobre o Apache Beam
  • Definir dados de entrada
  • Executar operações para manipulação de informação (map, filter, reduce)
  • Executar operações de conjunto (joins, left joins, side inputs)
  • Executar o pipeline no Google Cloud Dataflow
  • Utilizar o Apache Airflow para configurar dependências e agendar jobs

Pré-requisitos

  • Ter familiaridade com a linguagem Java ou alguma outra linguagem orientada a objetos
  • Ter tido algum contato com Scala (teremos um review rápido dos conceitos necessários)
  • Ter familiaridade com SQL

Cada vez mais precisamos lidar com cenários onde é preciso aplicar técnicas de big data. Dentre as diversas técnicas utilizadas, podemos destacar os jobs de processamento em batch e streaming. Ao longo do tempo, diversas bibliotecas e frameworks foram desenvolvidas para atacar estas duas categorias de formas distintas. O Apache Beam é uma resposta para quem quer conciliar data correctness, latência e custo operacional, unificando técnicas de batch e streaming em um programming model unificado, habilitando maior reutilização de conceitos e ao mesmo tempo possibilitando escrever jobs com baixo acoplamento à camada de runtime destas aplicações.   

Durante o workshop utilizaremos o Google Cloud Dataflow, uma plataforma serverless para execução de data pipelines que utiliza nativamente o Apache Beam.

Palestrante: Rodolfo Carvalho

Data engineer at Spotify

Encontre mais informações sobre Rodolfo Carvalho em

Tracks

Segunda-feira, 4 de maio

Terça-feira, 5 de maio

Quarta-feira, 6 de maio

  • Microservices: melhores práticas e padrões

    Frameworks modernos e os desafios de implantação, gestão e pós-produção

  • Software Supply Chain

    Todas as fases do ciclo de vida de um artefato de software, do primeiro commit até o deployment. Segurança, observabilidade, genealogia e gestão de toda a sua cadeia de suprimentos de software

  • Data Science aplicada

    Tecnologias e as boas práticas da ciência de dados trazendo ganho e diferencial competitivo para grandes empresas.

  • Linguagens Contemporâneas

    Linguagens e plataformas emergentes, com ênfase em linguagens projetadas para alta concorrência e sistemas distribuídos.

  • Levando sua carreira para o próximo nível

    Habilidades e estratégias para destravar sua carreira e potencializar seu desenvolvimento profissional.

  • Solutions Track #3

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.