Palestra: Acelerando a construção de Data Pipelines em Apache Spark: segredos arquiteturais para hackers de engenharia de dados
Share this on:
This presentation is now available to view on InfoQ.com
Assista a palestraPontos Principais
- Como construir Data Pipelines em Apache Spark de forma eficiente;
- Como construir Data Lakes a partir de Data Pipelines e como projetar um Data Lake para uso com Data Pipelines;
- Como eliminar o gap entre experimentação e produção na construção de Data Pipelines.
Resumo
A resolução de problemas de Data Science tipicamente passa pela construção de Data Pipelines que agregam diversas operações sobre uma ou mais fontes de dados. Em escala de Big Data, estes pipelines são tipicamente executados utilizando processamento distribuído em ferramentas como o Apache Spark.
A construção de um Data Pipeline, no entanto, é muitas vezes trabalhosa e pouco produtiva porque, em geral, um pipeline precisa passar por uma fase de experimentação, onde são prototipados em ferramentas interativas como Spark Shell ou Notebooks. Estes experimentos dependem da construção de uma base de dados amostral que é difícil de versionar e compartilhar durante o desenvolvimento., Quando a experimentação do Pipeline é concluída, ele ainda precisa ser finalmente codificado para execução em produção, onde os volumes de dados serão diferentes e ele será executado de forma agendada e não interativa.
Nesta palestra serão discutidos segredos arquiteturais para permitir acelerar a construção de Data Pipelines em Apache Spark em larga escala, mostrando como eliminar o gap entre experimentação e produção; como resolver problemas de segurança no acesso a dados e como escalar a execução de Pipelines. Também será apresentado como utilizar um sistema baseado em plugins com o Spark SQL para aumentar a produtividade; como projetar Data Lakes para utilização com Data Pipelines; como guardar históricos da execução dos Pipelines para análise e detecção de anomalias, além de diversas outras técnicas.
Tracks 2019
Segunda-feira, 6 de maio
-
Microservices: Melhores Práticas e Padrões
Frameworks modernos e os desafios de implantação, gestão e pós-produção.
-
Armazenamento e Processamento de Big Data
As últimas tendências, arquiteturas e ferramentas para armazenar e processar o seu Big Data.
-
Java e JVM: Inovações no Ecossistema e Linguagem
Performance, maturidade e novidades da principal plataforma de desenvolvimento no Brasil e no mundo.
-
Front-end Moderno
Conheça as tendências e ecossistema da web moderna.
-
Solutions Track
Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.
Terça-feira, 7 de maio
-
Arquiteturas que Você Sempre Quis Conhecer
Segredos arquiteturais de aplicações populares, com milhões de pessoas usuárias e que nunca saem do ar.
-
Machine Learning e Inteligência Artificial
Algoritmos, técnicas e ferramentas: o que está por trás de sistemas e soluções cada vez mais assertivas.
-
Construindo Culturas de Desenvolvimento Duradouras
Criando e evoluindo a cultura de empresas: novas formas de organizar times com foco em produtividade.
-
Ciência da Computação no Mundo Real
Temas avançados em computação. Técnicas clássicas e modernas direto da academia para o seu código.
-
Solutions Track
Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.
Quarta-feira, 8 de maio
-
Arquiteturas de Vanguarda
Conheça as técnicas e tecnologias modernas que dominarão as arquiteturas em 2020.
-
Data Science Aplicada
Tecnologias e as boas práticas da ciência de dados trazendo ganho e diferencial competitivo para grandes empresas.
-
Atingindo Todo o Potencial de Containers
Técnicas modernas de DevOps, Containers e Continuous Delivery para explorar o potencial da conteinerização de aplicações.
-
Linguagens do Século 21
Linguagens e plataformas emergentes, com ênfase em linguagens projetadas para alta concorrência e sistemas distribuídos.
-
Levando Sua Carreira Para o Próximo Nível
Habilidades e estratégias para destravar sua carreira e potencializar seu desenvolvimento profissional.
-
Solutions Track
Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.