Palestra: Building a Successful Data Lake

Track: Engenharia aplicada a Machine Learning

Sala: Sala 4

Horário: 4:05pm - 4:50pm

Dia da semana: Segunda-feira

Nível: Intermediário

Persona: Arquiteto(a), Cientista de Dados, Desenvolvedor(a) Programador(a), Desenvolvedor(a) Sênior, Líder Técnico(a)

Apresentação em Inglês

Share this on:

Pontos Principais

  • What makes a successful data lake 
  • Organizing a data lake: enabling analytics self-service, governing the lake: access control, de-identification, regulatory compliance (GDPR, CCPA, etc.), keeping track of what’s in the lake: data catalogs, lineage, access control
  • Architecting a data lake - cloud, on-premise, hybrid and logical

Resumo

Companies are investing in building data lakes to support analytics and data science initiatives, but many of these lakes end up as data swamps – expensive, yet largely unused and unusable. This talk assumes basic knowledge and understanding of data lake and big data principles and will focus on how to avoid building a data swamp by applying best practices for enabling a governed self-service. It is based on a recent O’Reilly book “Enterprise Big Data Lakes – Delivering on the Promise of Big Data and Data Sciences”, and discussions with dozens of data lake teams on what worked and what did not work for them.

Palestrante: Alex Gorelik

Founder and CTO at Waterline Data

Alex is founder and CTO of Waterline Data - a developer of AI driven data catalog. Prior to Waterline Data, Alex served as SVP and General Manager of Informatica’s Data Quality Business Unit, driving R&D, Product Marketing, and Product Management for an $80M business. Alex joined Informatica from IBM, where he was an IBM Distinguished Engineer for the Infosphere team. IBM acquired Alex’s second startup, Exeros (currently marketed as Infosphere Discovery), where he was founder, CTO and VP of Engineering. 
Previously, Alex was co-founder, CTO and VP of Engineering at Acta Technology, a pioneering ETL and EII company acquired by Business Objects and now marketed as SAP Data Service. Prior to founding Acta, Alex managed the development of Replication Server at Sybase and worked on Sybase’s strategy for enterprise application integration (EAI).
Alex is a frequent speaker at industry conferences and an author of “Enterprise Big Data Lake” book published by O’Reilly.
Alex holds a B.S. in Computer Science from Columbia University School of Engineering and a M.S. in Computer Science from Stanford University.

Find Alex Gorelik at

Tracks

  • Segunda-feira, 14 de Dezembro

  • Arquiteturas que você sempre quis conhecer

    Segredos arquiteturais de aplicações populares, com milhões de pessoas usuárias e que nunca saem do ar.

  • Engenharia aplicada a Machine Learning

    Conheça as principais técnicas de engenharia  e arquitetura de software de larga escala aplicadas a Machine Learning.

  • Java e JVM em evolução

    Performance, escalabilidade e as mais recentes novidades da principal plataforma de desenvolvimento no Brasil e no mundo.

  • JavaScript: a plataforma da web moderna

    Explore profundamente os frameworks que tornam o JavaScript tão popular e saiba como as linguagens baseadas em JavaScript estão evoluindo o desenvolvimento de front-end (e back-end).

  • AMA (Ask Me Anything)

    Discussões mais profundas com palestrantes do QCon São Paulo.

  • Solutions Track

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.

  • Terça-feira, 15 de Dezembro

  • Construindo culturas de desenvolvimento duradouras

    Criando e evoluindo a cultura de empresas: novas formas de organizar times com foco em produtividade.

  • Arquiteturas de vanguarda

    Conheça as tendências em técnicas, práticas e princípios que norteiam o estado da arte em arquitetura de software e podem ser alavancas não só para times e organizações de tecnologia, mas para os negócios, nos próximos anos.

  • Machine Learning e Inteligência Artificial

    Algoritmos, técnicas e ferramentas: o que está por trás de sistemas e soluções cada vez mais assertivos.

  • Ciência da Computação no mundo real

    Temas avançados em computação. Técnicas clássicas e modernas direto da academia para o seu código.

  • AMA (Ask Me Anything)

    Discussões mais profundas com palestrantes do QCon São Paulo.

  • Solutions Track #2

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.

  • Quarta-feira, 16 de Dezembro

  • Microservices: melhores práticas e padrões

    Frameworks modernos e os desafios de implantação, gestão e pós-produção

  • Software Supply Chain

    Todas as fases do ciclo de vida de um artefato de software, do primeiro commit até o deployment. Segurança, observabilidade, genealogia e gestão de toda a sua cadeia de suprimentos de software

  • Data Science aplicada

    Tecnologias e as boas práticas da ciência de dados trazendo ganho e diferencial competitivo para grandes empresas.

  • Linguagens Contemporâneas

    Linguagens e plataformas emergentes, com ênfase em linguagens projetadas para alta concorrência e sistemas distribuídos.

  • Levando sua carreira para o próximo nível

    Habilidades e estratégias para destravar sua carreira e potencializar seu desenvolvimento profissional.

  • Solutions Track #3

    Conheça soluções, ferramentas e técnicas de empresas parceiras do QCon São Paulo.