Valores discrepantes e valores faltantes

Esse artigo é o quarto de uma série sobre conceitos (bem) básicos de estatística aplicada a ciência de dados. Nesse são apresentados conceitos sobre valores discrepantes (outliers) e valores faltantes (missings).

No artigo anterior falamos sobre medidas de dispersão, especificamente variância e desvio padrão. Talvez, lê-lo te ajude a entender para que servem as medidas de dispersão que vamos apresentar aqui.

Quando falamos da média no artigo sobre medidas de tendência central, comentamos que é uma medida muito afetada por valores discrepantes. Então, agora vamos conversar sobre o que são esses valores.

Valores discrepantes (outliers)

Outliers (valores discrepantes) são valores numericamente distantes da maior parte do conjunto de dados, ou seja, valores extremos. Para determinar esses valores, usamos como parâmetro a medida de intervalo interquartil, que estabelece a dispersão dos dados em torno da mediana.

Como já vimos, a mediana é o valor que ocupa a posição central do conjunto de dados após a ordenação dos seus valores em ordem crescente. Depois dessa ordenação, também é possível determinar o primeiro e o terceiro quartil e, consequentemente, o intervalo entre eles. O que chamamos de intervalo interquartil é a diferença entre os valores do 3. e 1. quartil.

Os outliers são todos os valores que ultrapassam o limite superior ou inferior, ou seja, todos os valores que sejam maiores do que a soma do 3. quartil com 1,5 intervalo interquartil ou menores do que a subtração do 1. quartil por 1,5 intervalo interquartil.

Fonte: Wikimedia

É possível calcular os quartis e o intervalo interquartis usando uma função do Pandas. Para isso, vamos continuar usando a coluna NR_IDADE_DATA_POSSE do conjunto de dados de candidaturas para a Câmara dos Vereadores de Recife em 2020 para mostrar como fazer:

primeiro_quartil = df_candidaturas['NR_IDADE_DATA_POSSE'].quantile(0.25) | terceiro_quartil = df_candidaturas['NR_IDADE_DATA_POSSE'].quantile(0.75) | intervalo_interquartil = terceiro_quartil - primeiro_quartil Fonte: Notebook “Estatística básica para Ciência de Dados”

Percebemos que o primeiro quartil corresponde a 40 anos, ou seja, 25% das pessoas candidatas são mais jovens do que essa idade. Já o terceiro quartil corresponde a 56 anos, isso quer dizer que 75% das pessoas candidatas são mais jovens do que essa idade. Por fim, o intervalointerquartil é o valor 16.

Em resumo, todas as pessoas candidatas mais velhas do que 80 anos (56+161,5) e mais jovens do que 16 anos(40-161,5) são consideradas outliers em relação a sua idade.

Se os valores discrepantes não são erros produzidos na coleta dos dados, eliminá-los ou substituí-los pode modificar as inferências a partir da análise dos dados. O que pode ocasionar desenvolvimento de tecnologias discriminatórias. A diversidade dos dados é a chave para a produção de tecnologias inclusivas. Outliers devem ser explicados, não eliminados.

Valores faltantes (missings)

Se por um lado temos valores extremos, por outro temos valores faltantes (missings) que podem ocorrer de forma aleatória ou estar relacionada com o valor de alguma outra variável, por exemplo, pessoas que moram em bairros periféricos, podem não querer informar seu endereço por receio de sofrer discriminação. Não existe uma diretriz padrão para tratar dados faltantes. Os métodos mais utilizados são exclusão das observações com dados faltantes ou imputação de dados, que pode ser realizado através de várias técnicas. A forma de tratá-los dependerá do tipo de análise a ser realizada.

No próximo artigo vamos falar sobre correlação, que nos permitirá saber a influência de uma variável sobre outra e fazer algumas inferências.

Ainda que tu não tenha entendido nada do que escrevi aqui, sugiro que sigas lendo a série até o final, pois os assuntos se complementam e vão ajudar que na tua próxima tentativa de estudo o tema faça um pouquinho mais de sentido.

Se assistir vídeo aula te ajudar, dá uma olhadinha nessa sobre conceitos de estatística básica para ciência de dados, que fiz para a Sprint de Dados da PrograMaria.

Continue estudando

Outros artigos da série

Recomendações gerais

Ana Cecília Vieira Analista de dados especializada em qualidade de dados. Entusiasta em dados abertos, código aberto e comunidades autogestinadas como instrumento para transformação social. Embaixadora do programa 'Ciência de Dados para Inovação Cívica' da Open Knowledge Brasil e podcaster no Pizza de Dados.

-----

Leia também: