Palestra: Validating Big Data Jobs - Stopping Failures before Production (w/ Spark, BEAM, & friends!)

Sala:

Dia da semana:

2:30pm - 3:20pm

Nível da palestra:

Persona:

Apresentação em Inglês

Pontos principais

  • Why validation is important & how it’s distinct from testing 
  • How to validate your big data pipelines in Spark/BEAM & general techniques
  • What most people choose to validating on and why

Resumo

As big data jobs move from the proof-of-concept phase into powering real production services, we have to start consider what will happen when everything eventually goes wrong (such as recommending inappropriate products or other decisions taken on bad data). This talk will attempt to convince you that we will all eventually get aboard the failboat (especially with ~40% of respondents automatically deploying their Spark jobs results to production), and its important to automatically recognize when things have gone wrong so we can stop deployment before we have to update our resumes.

Figuring out when things have gone terribly wrong is trickier than it first appears, since we want to catch the errors before our users notice them (or failing that before CNN notices them). We will explore general techniques for validation, look at responses from people validating big data jobs in production environments, and libraries that can assist us in writing relative validation rules based on historical data. For folks working in streaming, we will talk about the unique challenges of attempting to validate in a real-time system, and what we can do besides keeping an up-to-date resume on file for when things go wrong.

The talk will have code examples in Apache Spark, as well as explore similar concepts in Apache BEAM (a cross platform tool), but the techniques should be applicable across systems.  To keep the talk interesting real-world examples (with company names removed) will be presented, as well as several creative-common licensed cat pictures and an adorable panda GIF.

Similar Talks

Software Engineer / RxJS Lead at Google
Apache Spark Committer & Principal Engineer at IBM

Tracks

Quarta-feira

  • Engenharia de Dados

    Armazenando e processando Big Data com eficiência.

  • Microservices e Web APIs

    Da ubiquidade das APIs a microservices ultra-modulares, frameworks modernos e os desafios de implantação, gestão e pós-produção.

  • JavaScript e Web

    Desenvolvimento com HTML5, JS, CCS3, HTTP/2 e novas tendências da web moderna.

  • IoT: Tecnologias do Mundo Real

    Conheça experiências de mundo real em IoT, bem como tecnologias que vão habilitar os próximos grandes avanços desta revolução.

  • Solutions Track #1

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.

Quinta-feira

Sexta-feira

  • Data Science Aplicada

    Da teoria à prática: como grandes cases do Brasil e do mundo têm utilizado DataScience para alavancar seus negócios.

  • Containers: o Estado da Arte

    Muito mais do que uma tecnologia, Containers são uma plataforma. Qual é o estado da arte, novidades, tendências e casos de uso sobre esta revolução.

  • Ciência da Computação no Mundo Real

    Temas discutidos na academia que podem nos ajudar a obter melhores resultados em nosso dia-a-dia.

  • Linguagens do Século 21

    Linguagens e plataformas emergentes no server-side, com ênfase em linguagens projetadas especificamente para alta concorrência e sistemas distribuídos.

  • Carreira e Soft-Skills

    Profissionais de sucesso vão muito além das suas habilidades em escrever código. Como potencializar seu desenvolvimento como profissional.