Palestra: Feature Engineering: Extraindo o potencial máximo dos dados para modelos preditivos

Sala:

Dia da semana:

5:05pm - 5:55pm

Apresentação em Português

Como os dados devem ser pré-processados para uso em algoritmos de machine learning? Como identificar os atributos mais preditivos de um dataset? Quais features podem gerar para melhorar a acurácia de um modelo? Feature Engineering é o processo de extrair e selecionar, a partir de dados brutos, características que possam ser utilizadas de forma efetiva em modelos preditivos. Como a qualidade das features influencia muito a qualidade dos resultados, conhecer as principais técnicas e armadilhas lhe ajudarão a ter sucesso na utilização de machine learning em seus projetos.

Nesta palestra, serão apresentados métodos e técnicas que permitem extrair o potencial máximo das features de um dataset, aumentando flexibilidade, simplicidade e acurácia dos modelos. Serão abordadas a análise de distribuição das features e suas correlações, a transformação de atributos numéricos (como scaling, normalization, log-based transformation, binning), de atributos categóricos (como one-hot encoding, feature hashing, interaction features), de atributos temporais (data/hora), e de atributos de texto-livre (text vectorization, topic modeling).

Serão apresentados exemplos em Python com Pandas, Scikit-learn e Spark SQL e como utilizar o conhecimento de domínio e a intuição para selecionar e gerar features relevantes para modelos preditivos.

Tracks 2017

Segunda-feira

Terça-feira

Quarta-feira