Palestra: Spark, Hadoop e Microservices na SoundCloud: extraindo informações de milhões de eventos

Sala:

Dia da semana:

11:05am - 11:55am

Apresentação em Português

A SoundCloud é uma das maiores plataformas de áudio do mundo, produzindo uma quantidade enorme e crescente de dados. Mais de 800 mil horas de áudio são reproduzidas diariamente em uma variedade de dispositivos, e um número ainda maior de eventos é emitido durante o processo de reprodução. Os próprios microservices, que são a base da plataforma, também geram eventos continuamente.

Processar tal volume de informações exige uma arquitetura que ofereça tanto eficiência como confiabilidade, além da capacidade de tratar eventos heterogêneos. Nesta palestra será mostrado como a SoundCloud implementou sua arquitetura para monetização de conteúdo e como foi construído um pipeline para processamento de eventos, identificação de spams, e enriquecimento, filtragem e agrupamento dos dados.

A pipeline de monetização foi construída utilizando Spark e Apache Crunch com a linguagem Scala. A arquitetura facilita, ainda, a integração com pipelines existentes que utilizam Hadoop com JRuby. Serão abordados os desafios encontrados ao criar e operar a plataforma, além de explorar decisões tomadas e seus impactos sobre o desempenho e a confiabilidade.

Tracks 2017

Segunda-feira

Terça-feira

Quarta-feira