Track: Armazenamento e Processamento de Big Data

Sala: Sala 02

Dia da semana: Segunda-feira

A Engenharia de Dados é uma disciplina que ganha relevância em um mundo onde as decisões baseadas em dados e inteligência artificial são cada vez mais frequentes. À medida que a quantidade de dados aumenta, novas técnicas e ferramentas para armazenamento e processamento surgem para resolver problemas típicos dessa nova era. A Engenharia de Dados traz mecanismos de armazenamento de dados especializados (baseados em grafos, otimizados para consultas, filas distribuídas, etc), ferramentas para processamento de streams (Spark, Beam, Flink, etc) e arquiteturas de dados que usam todas estas ferramentas para criar soluções escaláveis.

Esta trilha irá explorar quais são as tendências nessa área, quais são as tecnologias emergentes e como algumas das empresas mais avançadas em Engenharia de Dados estão resolvendo seus problemas.

Track Host: Fabiane Nardon

Chief Scientist na Tail

Fabiane é uma cientista da computação com PhD em Engenharia Elétrica que adora criar aplicações disruptivas. Depois de ganhar um Duke's Choice Award no JavaOne'2005, ela foi eleita Java Champion, liderou a comunidade JavaTools do Java.net e é palestrante frequente em conferências no Brasil e no exterior. Atualmente, Fabiane se diverte criando aplicações de Data Science na TailTarget, empresa que ela ajudou a construir.

CASE STUDY TALK (50 MIN)

2:05pm - 2:50pm

Processamento de dados em "tempo real" com Apache Spark Structured Streaming

Você tem um grande volume de transações e precisa transformar e agregar todos os dados antes de persistir? O Apache Spark tem uma solução de processamento de dados via Structured Streaming, que provê uma API simples para implementar o processamento de dados em "tempo real" de forma escalável.

Nessa apresentação vou mostrar o Structured Streaming do Apache Spark e como utilizamos essa tecnologia para processar mais de 100 milhões de transações de tentativas de tarifação por dia. Vou apresentar também nossa arquitetura e alguns aspectos que sobre Streams que poderão te ajudar na tarefa de trabalhar e transformar grandes volumes de dados.

Eiti Kimura, Coordenador de TI na Movile / Wavy
CASE STUDY TALK (50 MIN)

3:05pm - 3:50pm

Abraçando a Anarquia: Design Patterns de Apache Kafka em Arquiteturas de Dados Modernas e Big Data

Criar arquiteturas de dados escaláveis e em tempo real para empresas não é uma tarefa trivial. Raramente; uma única tecnologia é usada para endereçar todos os requisitos de sistema, e frequentemente diferentes equipes precisam ser envolvidas durante um projeto, o que gera problemas sérios de comunicação entre essas equipes.

O Apache Kafka é uma plataforma de streaming que atua como um ‘sistema nervoso central de dados’ para as empresas. Apesar da tecnologia ser largamente utilizada apenas como um motor de mensageria no estilo Pub-Sub, poucas pessoas exploram os reais benefícios do Kafka com relação a suas capacidades de persistência e processamento de dados. Quando estes recursos são corretamente explorados, o Apache Kafka pode habilitar casos de uso fantásticos tais como offload de bases de dados, offload de mainframes, comunicação entre microsserviços e também habilitar um sistema híbrido de ETL que entrega dados via batch ou online sem degradação de performance. Porém, estes casos de uso precisam ser munidos não somente do uso da tecnologia mas também de design patterns que ajudam o desenvolvedor a implementar Apache Kafka corretamente.

Esta palestra irá discutir o papel e os benefícios do Kafka em uma arquitetura de software, o seu ecossistema de projetos open-source, além de diversos design patterns usados para endereçar desafios comuns que organizações no mundo todo enfrentam enquanto lidam com grandes volumes de dados. Será abordado também como implementar aplicações que façam correto do Kafka, ressaltando as APIs que devem ser utilizadas e o impacto que estas trazem para as aplicações. Finalmente; a palestra irá mostrar as diferenças entre utilizar Kafka on-premise e na nuvem, onde serão mostradas as opções que desenvolvedores possuem para endereçar isso.

Ricardo Ferreira, Developer Advocate at Confluent
CASE STUDY TALK (50 MIN)

4:05pm - 4:50pm

Streaming e armazenamento de grande volume de dados: quando seus dados não cabem em banco de dados tradicionais

Nesta palestra vou falar sobre arquiteturas orientadas a eventos, arquivamento de dados e como o formato escolhido pode ajudar ou dificultar o processamento de grandes volumes. O formato em que os dados são armazenados é importante, por exemplo, se eles podem ser divididos, reprocessados ou se ocupam muito espaço ou são comprimidos. A forma como os dados serão utilizados também é um fator importante, pois nestas arquiteturas ter o dado armazenado em formatos distintos é mais barato e rapido do que mante-los em um formato relacional (se você souber quais queries serão executadas). Séries de tempo, dados capturados de eventos web, dados transacionais e datalakes vão se beneficiar destas ideias.

Gleicon Moraes, Diretor de Data Engineering na Lucid LLC

Tracks

Segunda-feira, 6 de maio

Terça-feira, 7 de maio

Quarta-feira, 8 de maio