Você está visualizando o site de uma EDIÇÃO PASSADA do QCon.

Track: Armazenamento e Processamento de Big Data

Sala: 4 São Francisco

Dia da semana: Segunda-feira

A Engenharia de Dados é uma disciplina que ganha relevância em um mundo onde as decisões baseadas em dados e inteligência artificial são cada vez mais frequentes. À medida que a quantidade de dados aumenta, novas técnicas e ferramentas para armazenamento e processamento surgem para resolver problemas típicos dessa nova era. A Engenharia de Dados traz mecanismos de armazenamento de dados especializados (baseados em grafos, otimizados para consultas, filas distribuídas, etc), ferramentas para processamento de streams (Spark, Beam, Flink, etc) e arquiteturas de dados que usam todas estas ferramentas para criar soluções escaláveis.

Esta trilha irá explorar quais são as tendências nessa área, quais são as tecnologias emergentes e como algumas das empresas mais avançadas em Engenharia de Dados estão resolvendo seus problemas.

Track Host: Fabiane Nardon

Chief Scientist na Tail

Fabiane Bizinella Nardon é mestre em Ciência da Computação pela UFRGS e Doutora em Engenharia Elétrica pela USP. Liderou e lidera várias comunidades, incluindo a JavaTools Community no java.net, onde nasceram mais de 800 projetos open source. Palestrante frequente em conferências no Brasil e exterior, foi autora de diversos artigos técnicos e membro dos comitês de programa de conferências como JavaOne, OSCON, TDC, QConSP. Foi escolhida Java Champion pela Sun Microsystem, como reconhecimento de sua contribuição para o ecosistema Java. Atualmente é Chief Data Scientist da Tail, empresa que produz soluções baseadas em Data Science para o mercado publicitário e que ganhou o Duke’s Choice Award 2015.

10:50am - 11:35am

Processamento de dados em "tempo real" com Apache Spark Structured Streaming

Você tem um grande volume de transações e precisa transformar e agregar todos os dados antes de persistir? O Apache Spark tem uma solução de processamento de dados via Structured Streaming, que provê uma API simples para implementar o processamento de dados em "tempo real" de forma escalável.

Nessa apresentação vou mostrar o Structured Streaming do Apache Spark e como utilizamos essa tecnologia para processar mais de 100 milhões de transações de tentativas de tarifação por dia. Vou apresentar também nossa arquitetura e alguns aspectos que sobre Streams que poderão te ajudar na tarefa de trabalhar e transformar grandes volumes de dados.

Eiti Kimura, Coordenador de TI na Movile / Wavy

11:50am - 12:35pm

Abraçando a Anarquia: Design Patterns de Apache Kafka em Arquiteturas de Dados Modernas e Big Data

Criar arquiteturas de dados escaláveis e em tempo real para empresas não é uma tarefa trivial. Raramente; uma única tecnologia é usada para endereçar todos os requisitos de sistema, e frequentemente diferentes equipes precisam ser envolvidas durante um projeto, o que gera problemas sérios de comunicação entre essas equipes.

O Apache Kafka é uma plataforma de streaming que atua como um ‘sistema nervoso central de dados’ para as empresas. Apesar da tecnologia ser largamente utilizada apenas como um motor de mensageria no estilo Pub-Sub, poucas pessoas exploram os reais benefícios do Kafka com relação a suas capacidades de persistência e processamento de dados. Quando estes recursos são corretamente explorados, o Apache Kafka pode habilitar casos de uso fantásticos tais como offload de bases de dados, offload de mainframes, comunicação entre microsserviços e também habilitar um sistema híbrido de ETL que entrega dados via batch ou online sem degradação de performance. Porém, estes casos de uso precisam ser munidos não somente do uso da tecnologia mas também de design patterns que ajudam o desenvolvedor a implementar Apache Kafka corretamente.

Esta palestra irá discutir o papel e os benefícios do Kafka em uma arquitetura de software, o seu ecossistema de projetos open-source, além de diversos design patterns usados para endereçar desafios comuns que organizações no mundo todo enfrentam enquanto lidam com grandes volumes de dados. Será abordado também como implementar aplicações que façam correto do Kafka, ressaltando as APIs que devem ser utilizadas e o impacto que estas trazem para as aplicações. Finalmente; a palestra irá mostrar as diferenças entre utilizar Kafka on-premise e na nuvem, onde serão mostradas as opções que desenvolvedores possuem para endereçar isso.

Ricardo Ferreira, Developer Advocate at Confluent

2:05pm - 2:50pm

Acelerando a construção de Data Pipelines em Apache Spark: segredos arquiteturais para hackers de engenharia de dados

A resolução de problemas de Data Science tipicamente passa pela construção de Data Pipelines que agregam diversas operações sobre uma ou mais fontes de dados. Em escala de Big Data, estes pipelines são tipicamente executados utilizando processamento distribuído em ferramentas como o Apache Spark.

A construção de um Data Pipeline, no entanto, é muitas vezes trabalhosa e pouco produtiva porque, em geral, um pipeline precisa passar por uma fase de experimentação, onde são prototipados em ferramentas interativas como Spark Shell ou Notebooks. Estes experimentos dependem da construção de uma base de dados amostral que é difícil de versionar e compartilhar durante o desenvolvimento., Quando a experimentação do Pipeline é concluída, ele ainda precisa ser finalmente codificado para execução em produção, onde os volumes de dados serão diferentes e ele será executado de forma agendada e não interativa.

Nesta palestra serão discutidos segredos arquiteturais para permitir acelerar a construção de Data Pipelines em Apache Spark em larga escala, mostrando como eliminar o gap entre experimentação e produção; como resolver problemas de segurança no acesso a dados e como escalar a execução de Pipelines. Também será apresentado como utilizar um sistema baseado em plugins com o Spark SQL para aumentar a produtividade; como projetar Data Lakes para utilização com Data Pipelines; como guardar históricos da execução dos Pipelines para análise e detecção de anomalias, além de diversas outras técnicas.

Fabiane Nardon, Chief Scientist na Tail

3:05pm - 3:50pm

Automating Machine Learning and Deep Learning Workflows

Machine Learning services are quickly becoming a big part of the software developer’s toolbox, in any domain. Databases or web development frameworks are a standard component of almost any non-trivial application, they integrate with not much special expertise. We expect to see similar layers for Machine Learning and Deep Learning in the near future with the same maturity.

Machine learning workflows are most of the time iterative, and typically involve several steps, i.g. creation of many intermediate datasets, modeling, evaluations, predictions, and deployment. These workflows tend to be repetitive and in some cases manual. In this presentation I will cover some of these workflows and how to automate them with the help of Polyaxon, an open source platform built on Kubenernetes to make machine learning, reproducible, scalable, and portable. We will be covering different workflows, from basic ones that automate repetitive tasks (e.g., create a dataset, post-process it, do augmentation, and finally model the result and make predictions) to sophisticated algorithms that enhance our machine learning arsenal (e.g., feature selection or hyperparameter optimization techniques).

Mourad Mourafiq, Author / Founder at Polyaxon

4:05pm - 4:50pm

Streaming e armazenamento de grande volume de dados: quando seus dados não cabem em banco de dados tradicionais

Nesta palestra vou falar sobre arquiteturas orientadas a eventos, arquivamento de dados e como o formato escolhido pode ajudar ou dificultar o processamento de grandes volumes. O formato em que os dados são armazenados é importante, por exemplo, se eles podem ser divididos, reprocessados ou se ocupam muito espaço ou são comprimidos. A forma como os dados serão utilizados também é um fator importante, pois nestas arquiteturas ter o dado armazenado em formatos distintos é mais barato e rapido do que mante-los em um formato relacional (se você souber quais queries serão executadas). Séries de tempo, dados capturados de eventos web, dados transacionais e datalakes vão se beneficiar destas ideias.

Gleicon Moraes, VP de Engenharia no Nubank

5:20pm - 6:05pm

Metrics Driven Machine Learning Development at Salesforce Einstein

The Einstein Prediction Builder modeling pipeline automates all steps of the end-to-end modeling process, from data auditing and feature engineering to model selection, for thousands of models. Although powerful, automated machine learning pipelines are inherently a black box that can be notoriously difficult to troubleshoot. This talk walks through a Data Science perspective of using monitoring and alerting, well-established practices in traditional engineering, to develop our modeling pipeline. We will discuss how we track data and modeling metrics at each stage in the pipeline to identify data and modeling issues and to raise alerts for issues affecting models running production. Furthermore, we will cover how this metrics framework is instrumental in helping to develop new features in a data-driven manner.

Eric Wayman, Senior Data Scientist at Salesforce

Tracks

Segunda-feira, 4 de maio

Terça-feira, 5 de maio

Quarta-feira, 6 de maio

  • Microservices: melhores práticas e padrões

    Frameworks modernos e os desafios de implantação, gestão e pós-produção

  • Software Supply Chain

    Todas as fases do ciclo de vida de um artefato de software, do primeiro commit até o deployment. Segurança, observabilidade, genealogia e gestão de toda a sua cadeia de suprimentos de software

  • Data Science aplicada

    Tecnologias e as boas práticas da ciência de dados trazendo ganho e diferencial competitivo para grandes empresas.

  • Linguagens Contemporâneas

    Linguagens e plataformas emergentes, com ênfase em linguagens projetadas para alta concorrência e sistemas distribuídos.

  • Levando sua carreira para o próximo nível

    Habilidades e estratégias para destravar sua carreira e potencializar seu desenvolvimento profissional.

  • Solutions Track #3

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.