Workshop: Data pipelines: Batch + Streaming com Beam e Scio

Sala: Workshop 3

Horário: 9:00am - 6:05pm

Dia da semana: Quarta-feira

Nível: Intermediate

Workshop em Português

Pontos principais

  • Aprender o que é o Apache Beam - e o Beam programming model
  • Aprender sobre as abstrações do Scio - wrapping library sobre o Apache Beam
  • Definir dados de entrada
  • Executar operações para manipulação de informação (map, filter, reduce)
  • Executar operações de conjunto (joins, left joins, side inputs)
  • Executar o pipeline no Google Cloud Dataflow
  • Utilizar o Apache Airflow para configurar dependências e agendar jobs

Pré-requisitos

  • Ter familiaridade com a linguagem Java ou alguma outra linguagem orientada a objetos
  • Ter tido algum contato com Scala (teremos um review rápido dos conceitos necessários)
  • Ter familiaridade com SQL

Cada vez mais precisamos lidar com cenários onde é preciso aplicar técnicas de big data. Dentre as diversas técnicas utilizadas, podemos destacar os jobs de processamento em batch e streaming. Ao longo do tempo, diversas bibliotecas e frameworks foram desenvolvidas para atacar estas duas categorias de formas distintas. O Apache Beam é uma resposta para quem quer conciliar data correctness, latência e custo operacional, unificando técnicas de batch e streaming em um programming model unificado, habilitando maior reutilização de conceitos e ao mesmo tempo possibilitando escrever jobs com baixo acoplamento à camada de runtime destas aplicações.   

Durante o workshop utilizaremos o Google Cloud Dataflow, uma plataforma serverless para execução de data pipelines que utiliza nativamente o Apache Beam.

Palestrante: Rodolfo Carvalho

Data engineer at Spotify

Encontre mais informações sobre Rodolfo Carvalho em

Tracks