Workshop: Data pipelines: Batch + Streaming com Beam e Scio

Sala: Workshop 3

Horário: 9:00am - 6:05pm

Dia da semana: Quarta-feira

Nível: Intermediate

Workshop em Português

Pontos principais

  • Aprender o que é o Apache Beam - e o Beam programming model
  • Aprender sobre as abstrações do Scio - wrapping library sobre o Apache Beam
  • Definir dados de entrada
  • Executar operações para manipulação de informação (map, filter, reduce)
  • Executar operações de conjunto (joins, left joins, side inputs)
  • Executar o pipeline no Google Cloud Dataflow
  • Utilizar o Apache Airflow para configurar dependências e agendar jobs

Pré-requisitos

  • Ter familiaridade com a linguagem Java ou alguma outra linguagem orientada a objetos
  • Ter tido algum contato com Scala (teremos um review rápido dos conceitos necessários)
  • Ter familiaridade com SQL

Cada vez mais precisamos lidar com cenários onde é preciso aplicar técnicas de big data. Dentre as diversas técnicas utilizadas, podemos destacar os jobs de processamento em batch e streaming. Ao longo do tempo, diversas bibliotecas e frameworks foram desenvolvidas para atacar estas duas categorias de formas distintas. O Apache Beam é uma resposta para quem quer conciliar data correctness, latência e custo operacional, unificando técnicas de batch e streaming em um programming model unificado, habilitando maior reutilização de conceitos e ao mesmo tempo possibilitando escrever jobs com baixo acoplamento à camada de runtime destas aplicações.   

Durante o workshop utilizaremos o Google Cloud Dataflow, uma plataforma serverless para execução de data pipelines que utiliza nativamente o Apache Beam.

Speaker: Rodolfo Carvalho

Data engineer at Spotify

Find Rodolfo Carvalho at

Tracks

  • Segunda-feira, 14 de Dezembro

  • Arquiteturas que você sempre quis conhecer

    Segredos arquiteturais de aplicações populares, com milhões de pessoas usuárias e que nunca saem do ar.

  • Engenharia aplicada a Machine Learning

    Conheça as principais técnicas de engenharia  e arquitetura de software de larga escala aplicadas a Machine Learning.

  • Java e JVM em evolução

    Performance, escalabilidade e as mais recentes novidades da principal plataforma de desenvolvimento no Brasil e no mundo.

  • JavaScript: a plataforma da web moderna

    Explore profundamente os frameworks que tornam o JavaScript tão popular e saiba como as linguagens baseadas em JavaScript estão evoluindo o desenvolvimento de front-end (e back-end).

  • AMA (Ask Me Anything)

    Discussões mais profundas com palestrantes do QCon São Paulo.

  • Solutions Track

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.

  • Terça-feira, 15 de Dezembro

  • Construindo culturas de desenvolvimento duradouras

    Criando e evoluindo a cultura de empresas: novas formas de organizar times com foco em produtividade.

  • Arquiteturas de vanguarda

    Conheça as tendências em técnicas, práticas e princípios que norteiam o estado da arte em arquitetura de software e podem ser alavancas não só para times e organizações de tecnologia, mas para os negócios, nos próximos anos.

  • Machine Learning e Inteligência Artificial

    Algoritmos, técnicas e ferramentas: o que está por trás de sistemas e soluções cada vez mais assertivos.

  • Ciência da Computação no mundo real

    Temas avançados em computação. Técnicas clássicas e modernas direto da academia para o seu código.

  • AMA (Ask Me Anything)

    Discussões mais profundas com palestrantes do QCon São Paulo.

  • Solutions Track #2

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.

  • Quarta-feira, 16 de Dezembro

  • Microservices: melhores práticas e padrões

    Frameworks modernos e os desafios de implantação, gestão e pós-produção

  • Software Supply Chain

    Todas as fases do ciclo de vida de um artefato de software, do primeiro commit até o deployment. Segurança, observabilidade, genealogia e gestão de toda a sua cadeia de suprimentos de software

  • Data Science aplicada

    Tecnologias e as boas práticas da ciência de dados trazendo ganho e diferencial competitivo para grandes empresas.

  • Linguagens Contemporâneas

    Linguagens e plataformas emergentes, com ênfase em linguagens projetadas para alta concorrência e sistemas distribuídos.

  • Levando sua carreira para o próximo nível

    Habilidades e estratégias para destravar sua carreira e potencializar seu desenvolvimento profissional.

  • Solutions Track #3

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.