Track: Engenharia aplicada a Machine Learning

Sala: Sala 4

Dia da semana: Segunda-feira

Nos últimos anos, a tecnologia de Machine Learning obteve avanços incríveis. No entanto, existem muitos desafios de engenharia para que estes sistemas sejam criados e executados com eficiência.

Esta trilha irá explorar diversos desafios de engenharia aplicada aos problemas de Machine Learning, como processamento de Big Data, organização de Data Lakes, ferramentas e técnicas modernas para deployment em produção, arquiteturas para processamento distribuído e tratamento de streaming.

Track Host: Fabiane Nardon

Chief Scientist na Tail

Fabiane Bizinella Nardon é mestre em Ciência da Computação pela UFRGS e Doutora em Engenharia Elétrica pela USP. Liderou e lidera várias comunidades, incluindo a JavaTools Community no java.net, onde nasceram mais de 800 projetos open source. Palestrante frequente em conferências no Brasil e exterior, foi autora de diversos artigos técnicos e membro dos comitês de programa de conferências como JavaOne, OSCON, TDC, QConSP. Foi escolhida Java Champion pela Sun Microsystem, como reconhecimento de sua contribuição para o ecosistema Java. Atualmente é Chief Data Scientist da Tail, empresa que produz soluções baseadas em Data Science para o mercado publicitário e que ganhou o Duke’s Choice Award 2015.

10:50am - 11:35am

Machine Learning Design Patterns

As the practice of Machine Learning gets formalized, the community learns best practices of setting up large scale training loops and moving from development to production. In the talk, I introduce some of these design patterns, explaining the problem and the code for these patterns in Keras and Tensorflow 2.0.

Valliappa Lakshmanan, Head of Data Analytics and AI Solutions, Google Cloud

11:50am - 12:35pm

Machine Learning Workloads com Jupyter Notebooks para o ambiente corporativo

Nascido no ambiente acadêmico, o Jupyter Notebook é predominante nos ambientes de ensino e em toda a comunidade científica. Devido à ampla adoção de big data, inteligência artificial e redes neurais, o Jupyter Notebook também está entrando no ambiente corporativo, o que traz um novo conjunto de requisitos.

Nesta palestra, abordamos como integrar Jupyter Notebooks, JupyterHub, Jupyter Enterprise Gateway, Apache Spark, IPython e Apache Toree para atender os requisitos comuns a projetos de análise de Big Data e Machine Learning em ambientes corporativos, como: escalabilidade, segurança, autoatendimento, multiusuário, etc. E encerraremos com uma demonstração ao vivo destes componentes trabalhando de forma harmônica em uma plataforma de Big Data e Machine Learning open source.

Luciano Resende, Open Source AI Platform Architect at IBM

2:05pm - 2:50pm

Practical Change Data Streaming Use Cases with Apache Kafka and Debezium

Debezium (noun | de·be·zi·um | /dɪ:ˈbɪ:ziːəm/) - Secret Sauce for Change Data Capture.

Apache Kafka is a highly popular option for asynchronous event propagation between microservices. Things get challenging though when adding a service’s database to the picture: How can you avoid inconsistencies between Kafka and the database?

Enter change data capture (CDC) and Debezium. By capturing changes from the log files of the database, Debezium gives you both reliable and consistent inter-service messaging via Kafka and instant read-your-own-write semantics for services themselves.

In this session you’ll see how to leverage CDC for reliable microservices integration, e.g. using the outbox pattern, as well as many other CDC applications, such as maintaining audit logs, automatically keeping your full-text search index in sync, and driving streaming queries. We’ll also discuss practical matters, e.g. HA set-ups, best practices for running Debezium in production on and off Kubernetes, and the many use cases enabled by Kafka Connect's single message transformations.

Gunnar Morling, Principal Software Engineer at Red Hat

4:05pm - 4:50pm

Building a Successful Data Lake

Companies are investing in building data lakes to support analytics and data science initiatives, but many of these lakes end up as data swamps – expensive, yet largely unused and unusable. This talk assumes basic knowledge and understanding of data lake and big data principles and will focus on how to avoid building a data swamp by applying best practices for enabling a governed self-service. It is based on a recent O’Reilly book “Enterprise Big Data Lakes – Delivering on the Promise of Big Data and Data Sciences”, and discussions with dozens of data lake teams on what worked and what did not work for them.

Alex Gorelik, Founder and CTO at Waterline Data

5:20pm - 6:05pm

Arquiteturas Pragmáticas para Data Science: como evitar o hype e encontrar o que funciona para o seu negócio

Nos últimos anos, ao criarmos uma nova arquitetura de Big Data com um Data Lake e com processos escaláveis para aplicações de Machine Learning e BI, entendemos que as ferramentas mais mencionadas no mercado, e também as sugeridas pelos provedores de Cloud, ainda não estavam preparadas para serem conectadas sem a necessidade da contratação de dezenas de Engenheiros de Dados altamente especializados no assunto.

Nessa palestra, vamos mostrar os aprendizados e escolhas feitas pela AMARO, uma marca de moda nativa digital que cresceu de 150 para 450 funcionários nos últimos 3 anos, ao construir uma arquitetura pragmática e escalável, que pode ser aplicada na maioria dos casos de uso, sendo de baixa manutenção e agnóstica, onde os Data Engineers podem focar em construir novos módulos, ao invés de dar manutenção ao que já existem.

Essa palestra vai fazer também um detalhamento técnico de como a infra-estrutura serverless de orquestração foi desenhada e construída para evitar manutenção, simplificar o deploy, e ser agnóstica e modular permitindo o uso de novas linguagens e frameworks que podem ser necessários no futuro.

Murilo Tavolaro De Nigris, Head of Data & Analytics at AMARO

Tracks