Dados nem sempre dizem a verdade

Cristina De Luca

5 anos atrás

A maioria dos profissionais de ciência de dados sabe: dados são traiçoeiros. E nem sempre nos contam a verdade. Extrair verdades valiosas deles não é uma tarefa simples. Requer muita atenção para escapar das armadilhas. O universo está cheio de correlações espúrias. E o Big Data simplesmente intensifica o problema.

A quantidade de dados que podemos coletar cresceu exponencialmente nos últimos anos, assim como o poder de computação que temos à nossa disposição para analisá-los. Mesmo assim, os cientistas de dados ainda precisam tomar decisões difíceis todos os dias sobre o uso desse poder recém-descoberto. À medida que a gama de fontes de dados e a diversidade de algoritmos de predição continuam a crescer, o número de relacionamentos que podem ser modelados potencialmente começa a se aproximar do infinito. Isso é verdade nos negócios, na tecnologia e na medicina – e em mais ou menos todos os outros campos da atividade humana, lembram os editores do Towards Data Science, ao se depararem com a mais recente provocação de Scott Lundberg, pesquisador sênior do Microsoft Research.

Segundo ele, a armadilha mais perigosa hoje é confundir correlação e causalidade. Ajustar um modelo para prever quais clientes deixarão de comprar algo é uma coisa; mas determinar as causas diretas desse comportamento exige um conjunto diferente de perguntas.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

Às vezes, fatos aparentemente triviais acabam sendo muito mais complicados do que pensávamos. Em nossa vida diária, se alguém nos perguntar “quantos anos você tem?”, mesmo aqueles de nós que acham a pergunta pouco diplomática poderiam dar uma resposta clara em um instante. Nosso DNA, por outro lado, contém sua própria verdade. Em seu projeto recente, Eleonora Shantsila e seus colegas da Harvard IACS estudaram as surpreendentes lacunas entre a idade cronológica e a biológica, e se concentraram na metilação do DNA como um preditor da primeira. Já Valerie Carey, cientista de dados da Paychex, abordou os dados relacionados à idade de uma direção diferente e observou como a idade afeta as medidas de justiça em modelos preditivos. Sua conclusão é que “tentativas de corrigir ou ajustar um modelo para equalizar as métricas podem ter consequências indesejadas se os efeitos da idade não forem considerados”.

E esses são só alguns poucos exemplos recentes.

“Se estivermos procurando por uma correlação específica em nossos dados, provavelmente poderemos encontrá-la se formos inteligentes o suficiente para combinar apenas os dados certos, especificar apenas as variáveis certas e analisar usando apenas o algoritmo certo. Depois de chegar à combinação certa de decisões de modelagem, os padrões que procuramos podem aparecer do nada. No entanto, o fato de supostamente termos descoberto essa correlação não significa que ela realmente exista no domínio do mundo real subjacente que estamos investigando”, diz James Kobielus, evangelista de Big Data da IBM.

Não perceber que estamos olhando para padrões estatísticos inexistentes pode simplesmente resultar do fato de que somos humanos. E de que o viés de confirmação é uma vulnerabilidade da qual todos tendemos a ser vítimas de vez em quando. Mesmo os analistas estatísticos mais brilhantes podem cometer erros honestos de matemática e lógica.

Correlações espúrias são um honeypot perigoso. A pressão para aceitar falsos padrões como verdadeiros pode originar-se de um desejo inconsciente de validar as suposições acalentadas das quais dependem sua carreira e o modelo de negócios de seu empregador. Pode ser difícil justificar investigações mais profundas em dados que podem revelar verdades inconvenientes.

Podem não haver verdades objetivas válidas para todo o universo, mas podemos nos tornar menos errados com o tempo. Esse é basicamente o objetivo da ciência de dados: descobrir um pouco mais da estrutura do nosso mundo a cada novo conjunto de dados. Ao mesmo tempo, precisamos reconhecer os limites dos dados e não generalizar demais. Mais dados não são uma panaceia, mas mais dados com debate, análises múltiplas e escrutínio podem levar a melhores decisões no mundo real e é isso que esperamos como cidadãos alfabetizados em dados.

Se torturarmos os dados, eles são capazes de dizer qualquer coisa que quisermos saber, inclusive falsas verdades, confirma Paulo Vasconcellos, cofundador do Data Hackers. “Fazer sempre o papel do advogado do diabo, duvidar de nossa análise, olhar por outra perspectiva, ou simplesmente se perguntar: ‘O que eu estou esquecendo?'”, diz. Do contrário, corremos o risco de mentir com estatística, de forma involuntária.

Mesmo os dados brutos, antes de quaisquer análises ou interpretações serem feitas, antes de tabelas ou gráficos serem construídos, antes de uma linguagem seca e obtusa ser aplicada em um artigo de jornal estão cheios de mentiras. Nunca coletamos o que a natureza está dizendo, mas sim o que nossos instrumentos nos relatam como a natureza dizendo. Essas são coisas diferentes, e essa distinção é crucial. Confiar cegamente nos dados sem tratá-los com cautela é uma missão tola e simplesmente levará a resultados inúteis, se não totalmente errados.

Isso é o que torna o pensamento e as políticas baseadas em evidências muito mais difíceis do que parecem à primeira vista. Para os não iniciados, os dados estão lá, prontos para serem colhidos e usados para informar nossas decisões e ações. Mas serão dados de qualidade?

Os motivos para dados sujos e de baixa qualidade são vários:

Erros de entrada do usuário
Sistemas legados
Migração de dados
Padrões de codificação mal aplicados/erro do programador
Aplicativos em evolução

Podemos investigar os seguintes aspectos para medir a qualidade dos dados:

Validade: está em conformidade com um esquema
Precisão: está em conformidade com os dados do padrão ouro
Completude: conjunto de dados contém todos os registros
Consistência: o conjunto de dados é consistente com outros conjuntos de dados (de outras fontes)
Uniformidade: os valores usam as mesmas unidades de medida

Tudo isso influi em uma boa análise. E na construção de bons modelos. Por falar neles, uma das armadilhas que os cientistas de dados precisam evitar é deixar de prestar atenção a qual métrica usar para medir o desempenho dos modelos que criam. Isso pode levar ao uso de alguma métrica padrão, na maioria das vezes, incorreta. Outra, é a escolha do modelo. O que nos leva de volta ao início desse artigo: as suposições que fazemos ao interpretar um modelo preditivo normal como causal são freqüentemente irrealistas.

Data Science não fornece respostas para todos os tipos de problemas de negócios e necessita de uma base sólida antes de poder ser aplicada. Somos instruídos a seguir os dados e a verdade será revelada, mas os dados podem contar muitas histórias. Tudo dependerá de como os interpretamos.

“Os dados são extraídos de acordo com sua relevância para as perguntas que precisam responder. Os algoritmos, igualmente. São escritos para incluir várias entradas conforme identificadas como necessárias para responder às perguntas feitas”, diz Pam Baker, autora do livro “Data Divination: Big Data Strategies“.

É por isso que as lições do livro “Como mentir com estatísticas”, de Darell Huff, são tão relevantes ainda hoje, mesmo que cada um de nós gere mais dados em um único dia do que todos os que existiam no mundo quando ele foi escrito, há cerca de 70 anos.

Entre essas lições estão:

Veja as correlações com o ceticismo
Relacionamentos não duram para sempre
Dependendo do problema, pequenas amostras podem produzir estatísticas chocantes. Verificar o tamanho da amostra pode ser uma maneira de evitar ser enganado pelos dados
Verifique sempre qual média usar
Compare com uma linha de base comum
Procure enviesamento na seleção da amostra
Não coloque muita fé em nenhuma estatística

Analistas e cientistas de dados precisam apresentar resultados efetivamente válidos de seu trabalho. E cada um de nós, como consumidores de informação, saber detectar estatísticas enganosas e/ou exageradas que nos manipulam. Em tempos de fake news elas são muitas e estão por toda parte, fundamentando teses mirabolantes.

Essas habilidades se enquadram em uma categoria chamada “alfabetização em dados”: a capacidade de ler, compreender, argumentar e tomar decisões a partir da informação. Comparada com algoritmos ou processamento de Big Data, a alfabetização em dados pode não parecer empolgante, mas deve formar a base para qualquer educação em ciência de dados.

Nessa linha, outro livro com lições valiosas é “Everybody Lies“. Oferece insights fascinantes, surpreendentes e, às vezes, divertidos sobre tudo, desde economia a ética, esportes, raça, sexo, gênero e muito mais, todos retirados do mundo dos Big Data.

O que fazer a respeito

Ah, quer saber como os cientistas de dados podem reduzir a probabilidade de que, ao explorar Big Data, eles possam inadvertidamente aceitar correlações estatísticas espúrias como fatos? Aqui estão algumas metodologias úteis a esse respeito, na opinião de James Kobielus:

Aprendizagem por conjunto: esta abordagem determina se vários modelos independentes — todos usando o mesmo conjunto de dados, mas treinados em amostras diferentes, empregando algoritmos diferentes e chamando variáveis diferentes — convergem em um padrão estatístico comum. Se o fizerem, você pode ter maior confiança de que as correlações que eles revelam têm alguma validade casual. Um algoritmo de aprendizagem por conjunto faz isso treinando nos conjuntos de resultados dos modelos independentes e usando voting, averaging, bagging, boosting e outras funções para reduzir a variação entre os padrões revelados nos vários modelos.

Teste A/B: esta abordagem determina quais modelos alternativos — entre os quais algumas variáveis diferem, mas outras são mantidas constantes — melhor prediz a variável dependente de interesse. Normalmente, em experimentos do mundo real envolvendo dados ao vivo, execuções sucessivas de modelos A e B revisados incrementalmente convergem em um conjunto de variáveis com o maior valor preditivo.

Modelagem robusta: esta abordagem envolve simplesmente a devida diligência no processo de modelagem para determinar se as previsões feitas são estáveis com relação a fontes de dados alternativas, técnicas de amostragem, abordagens algorítmicas, prazos e assim por diante. Além disso, a análise de outliers robusta é muito importante porque, como Vincent Granville observou há alguns anos, a crescente incidência de outliers em conjuntos de dados maiores cria correlações espúrias, que podem obscurecer os verdadeiros padrões nos dados ou “revelar” padrões que não existem.