10:50am - 11:35am
Até pouco tempo, não existiam técnicas consolidadas para se conseguir explicar predições feitas por modelos de Machine Learning. Isso fazia com que os data scientists tivessem que pesar a utilização de modelos com melhores métricas versus de modelos que tivessem sido treinados com algoritmos mais simples de se explicar. No entanto, a comunidade teve grandes avanços recentemente que nos permitem, de forma agnóstica à complexidade do modelo, explicar suas predições e até entender o que ele aprendeu.
Nessa talk, nós vamos mostrar como essas novas técnicas funcionam na prática, trazendo um case do Grupo ZAP em que utilizamos modelos de NLP para se classificar descrições dos anúncios imobiliários. Um dos modelos foi treinado com td-idf, uma técnica mais tradicional e intuitiva, enquanto o outro é mais complexo, tendo sido criado com avanços recentes em deep learning.
Nós mostraremos como conseguimos explicar cada predição feita pelos modelos e como isso também permite com que os Data Scientists consigam interpretar o que cada modelo aprendeu como um todo. Também faremos um comparativo de alternativas para a visualização das explicações em problemas de classificação de texto.
11:50am - 12:35pm
Quando pensamos em Deep Learning, é comum pensarmos em aplicações de dados não estruturados uma vez que grande parte das aplicações que envolvem dados tabulares têm o estado da arte atingido por meio de árvores. Contudo, em algumas situações nem sempre isso é verdade. A ideia dessa talk é mostrar como podemos aplicar Deep Learning em Dados tabulares, mostraremos algumas técnicas que utilizamos, o que deu certo e o que não conseguimos levar adiante no QuintoAndar. Nosso principal exemplo é a aplicação de Deep Learning em precificação de imóveis. Vamos passar da motivação em cima da Loss que usamos (QuantileLoss) até a motivação do porquê alteramos nosso modelo de produção de um GBM para uma Rede Neural, passando por abordagens e arquiteturas que deram/não deram certo.
2:05pm - 2:50pm
Com mais de 1000 cursos um dos desafios na Alura é guiar cada um de nossos alunos e alunas com o curso ideal para seu momento de vida. Recomendadores tradicionais foram testados e fracassamos miseravelmente.
Usando algoritmos de NLP e redes neurais recorrentes fomos capazes de filtrar o ruído existente nos dados e vencer até mesmo recomendações humanas, atendendo assim de forma personalizada a demanda de cada aluno e aluna.
Tais algoritmos têm sido a base de recomendadores usados por diversas empresas de outros nichos. Os desafios foram inúmeros, desde conseguir tempo para desenvolver o projeto, ser melhor que heurísticas especializadas, até manter o mesmo em produção. Veremos o processo de descoberta e entenderemos como tal recomendador funciona.
Depois discutiremos outros problemas do caminho. Será que randomizamos adequadamente os grupos? Adicionar funcionalidades em uma página ou app mas não em outra já implica em selection bias, por exemplo. Mostraremos problemas que tivemos definindo testes adequados selecionando grupos de teste e controle adequados, lidando com selection bias inerente a internet, como calculamos sucesso e fracasso, qual tipo de teste estatístico utilizamos e como interpretar os resultados.
Sobrando tempo, passaremos também por exemplos que não foram encontrados nesse caso específico mas que são comuns ao dia a dia de quem vai colocar em produção tais algoritmos.
3:05pm - 3:50pm
Imagine duas redes neurais competindo entre si. Uma delas produz imagens artificiais e a outra tem o papel de decidir se uma dada imagem é verdadeira ou falsa. É nessa "briga" entre redes que reside a mecânica das Generative Adversarial Networks (GAN) . Com aplicações das mais diversas, desde criação de pessoas ou pinturas fictícias até a geração de músicas automaticamente, esta é uma área que vem crescendo muito.
Nesta apresentação você poderá entender como funciona uma GAN e suas variantes, com um pequeno exemplo de um modelo simples de criação de dígitos escritos a mão. A partir disso, utilizo GAN para criar artificialmente exames de raio-x para patologias, abordando as dificuldades, aprendizados e passos futuros.
4:05pm - 4:50pm
Quando queremos influenciar decisões através de dados, nós queremos que a nossa audiência entenda: o problema, os dados, o contexto e a solução proposta da maneira mais clara e rápida possível. Criar gráficos e visualizações a partir dos seus dados não é tão simples quanto parece. Enquanto você ainda está explorando os seus dados tudo bem utilizar as definições padrões dos softwares de plotagem. Entretanto, para influenciar a sua audiência a tomar uma decisão você precisará trabalhar muito mais nas suas visualizações.
Nesta talk nós vamos discutir algumas técnicas para fazer os seus dados se destacarem e entregarem a mensagem de maneira efetiva. Nós vamos passar por vários exemplos para entender o passo a passo para transformar uma visualização padrão em excepcional. Também vamos ver vários cenários, exemplos de uso e aplicações.