Você está visualizando o site de uma EDIÇÃO PASSADA do QCon.

Palestra: Acelerando a construção de Data Pipelines em Apache Spark: segredos arquiteturais para hackers de engenharia de dados

Track: Armazenamento e Processamento de Big Data

Sala: 4 São Francisco

Horário: 2:05pm - 2:50pm

Dia da semana: Segunda-feira

Slides: Download Slides

Nível: Intermediário

Persona: Arquiteto(a), Cientista de Dados, Desenvolvedor(a) Programador(a), Desenvolvedor(a) Sênior, Líder Técnico(a)

Apresentação em Português

Share this on:

This presentation is now available to view on InfoQ.com

Assista a palestra

Pontos Principais

  • Como construir Data Pipelines em Apache Spark de forma eficiente;
  • Como construir Data Lakes a partir de Data Pipelines e como projetar um Data Lake para uso com Data Pipelines;
  • Como eliminar o gap entre experimentação e produção na construção de Data Pipelines.

Resumo

A resolução de problemas de Data Science tipicamente passa pela construção de Data Pipelines que agregam diversas operações sobre uma ou mais fontes de dados. Em escala de Big Data, estes pipelines são tipicamente executados utilizando processamento distribuído em ferramentas como o Apache Spark.

A construção de um Data Pipeline, no entanto, é muitas vezes trabalhosa e pouco produtiva porque, em geral, um pipeline precisa passar por uma fase de experimentação, onde são prototipados em ferramentas interativas como Spark Shell ou Notebooks. Estes experimentos dependem da construção de uma base de dados amostral que é difícil de versionar e compartilhar durante o desenvolvimento., Quando a experimentação do Pipeline é concluída, ele ainda precisa ser finalmente codificado para execução em produção, onde os volumes de dados serão diferentes e ele será executado de forma agendada e não interativa.

Nesta palestra serão discutidos segredos arquiteturais para permitir acelerar a construção de Data Pipelines em Apache Spark em larga escala, mostrando como eliminar o gap entre experimentação e produção; como resolver problemas de segurança no acesso a dados e como escalar a execução de Pipelines. Também será apresentado como utilizar um sistema baseado em plugins com o Spark SQL para aumentar a produtividade; como projetar Data Lakes para utilização com Data Pipelines; como guardar históricos da execução dos Pipelines para análise e detecção de anomalias, além de diversas outras técnicas.

Palestrante: Fabiane Nardon

Chief Scientist na Tail

Fabiane Bizinella Nardon é mestre em Ciência da Computação pela UFRGS e Doutora em Engenharia Elétrica pela USP. Liderou e lidera várias comunidades, incluindo a JavaTools Community no java.net, onde nasceram mais de 800 projetos open source. Palestrante frequente em conferências no Brasil e exterior, foi autora de diversos artigos técnicos e membro dos comitês de programa de conferências como JavaOne, OSCON, TDC, QConSP. Foi escolhida Java Champion pela Sun Microsystem, como reconhecimento de sua contribuição para o ecosistema Java. Atualmente é Chief Data Scientist da Tail, empresa que produz soluções baseadas em Data Science para o mercado publicitário e que ganhou o Duke’s Choice Award 2015.

Find Fabiane Nardon at

Tracks

  • Segunda-feira, 14 de Dezembro

  • Arquiteturas que você sempre quis conhecer

    Segredos arquiteturais de aplicações populares, com milhões de pessoas usuárias e que nunca saem do ar.

  • Engenharia aplicada a Machine Learning

    Conheça as principais técnicas de engenharia  e arquitetura de software de larga escala aplicadas a Machine Learning.

  • Java e JVM em evolução

    Performance, escalabilidade e as mais recentes novidades da principal plataforma de desenvolvimento no Brasil e no mundo.

  • JavaScript: a plataforma da web moderna

    Explore profundamente os frameworks que tornam o JavaScript tão popular e saiba como as linguagens baseadas em JavaScript estão evoluindo o desenvolvimento de front-end (e back-end).

  • AMA (Ask Me Anything)

    Discussões mais profundas com palestrantes do QCon São Paulo.

  • Solutions Track

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.

  • Terça-feira, 15 de Dezembro

  • Construindo culturas de desenvolvimento duradouras

    Criando e evoluindo a cultura de empresas: novas formas de organizar times com foco em produtividade.

  • Arquiteturas de vanguarda

    Conheça as tendências em técnicas, práticas e princípios que norteiam o estado da arte em arquitetura de software e podem ser alavancas não só para times e organizações de tecnologia, mas para os negócios, nos próximos anos.

  • Machine Learning e Inteligência Artificial

    Algoritmos, técnicas e ferramentas: o que está por trás de sistemas e soluções cada vez mais assertivos.

  • Ciência da Computação no mundo real

    Temas avançados em computação. Técnicas clássicas e modernas direto da academia para o seu código.

  • AMA (Ask Me Anything)

    Discussões mais profundas com palestrantes do QCon São Paulo.

  • Solutions Track #2

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.

  • Quarta-feira, 16 de Dezembro

  • Microservices: melhores práticas e padrões

    Frameworks modernos e os desafios de implantação, gestão e pós-produção

  • Software Supply Chain

    Todas as fases do ciclo de vida de um artefato de software, do primeiro commit até o deployment. Segurança, observabilidade, genealogia e gestão de toda a sua cadeia de suprimentos de software

  • Data Science aplicada

    Tecnologias e as boas práticas da ciência de dados trazendo ganho e diferencial competitivo para grandes empresas.

  • Linguagens Contemporâneas

    Linguagens e plataformas emergentes, com ênfase em linguagens projetadas para alta concorrência e sistemas distribuídos.

  • Levando sua carreira para o próximo nível

    Habilidades e estratégias para destravar sua carreira e potencializar seu desenvolvimento profissional.

  • Solutions Track #3

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.