É necessário cair na real: a economia de dados está repleta de falhas sistêmicas. E corrigi-las é um imperativo das sociedades modernas. Entre os meios encontrados para isso estão as legislações de proteção de dados pessoais, focadas em resguardar a privacidade e em estabelecer boas práticas de governança de dados. Mas uma outra frente começa a ganhar força: a da gestão participativa de dados.
Os dados são um novo recurso que requer novas ferramentas para calcular seu valor, identificar seus participantes e beneficiários e alocar seus lucros. Para transmitir seu valor econômico e social, os dados são frequentemente comparados a outros fenômenos essenciais, como petróleo e eletricidade. Ou a tipos de propriedade aos quais os direitos de propriedade podem ser alocados.
Na verdade, os dados têm sua própria dinâmica e ela requer abordagens distintas para tabular seu valor. Seu poder é relacional e cumulativo, realizado no agregado, o que torna a agenda de “privacidade de dados” importante, mas de perspectiva limitada. Os dados são o produto de muitos participantes e usuários que às vezes não percebem seus “trabalhos de dados” e não são compensados de forma justa por isto. Precisamos de ferramentas mais sofisticadas para a compreensão das propriedades exclusivas e a dinâmica dos dados. E a gestão participativa é uma delas. Ou melhor, aa administração participação, na acepção da expressão “participatory data stewardship”.
Conceitualmente, sua aplicação está baseada na “escada da participação cidadã”, de Sherry Arnstein, e em variações dela, como a que fundamenta a proposta de um framework para administração participativa de dados recém lançado pelo Ada Lovelace Institute. A ideia é dar às pessoas maior transparência e gerência sobre o uso de seus dados. E até, por que não, torná-las co-projetistas, partícipes das tomadas de decisões ou simples avalistas.
Em outras palavras, a gestão participativa de dados parte do princípio de que deve-se permitir e preservar direitos e envolver de forma significativa as pessoas cujos dados são usados ou sobre as quais decisões de dados são tomadas (os ‘titulares dos dados’) nos processos de tratamento.
Razão pela qual não basta apenas saber quem irá acessar um conjunto de dados, em que termos e com que finalidade, mas buscar respostas para um conjunto mais amplo de perguntas, tais como:
- Esses dados deveriam existir?
- Como eles podem ser melhor coletados de forma a respeitar as necessidades das partes interessadas?
- Que dados estão faltando que deveriam estar aqui? Estamos considerando as “oportunidades perdidas” e também os riscos de uso indevido?
- Esses dados estão estruturados de forma a representar adequadamente os interesses de todas as partes interessadas?
A administração de dados em si é uma ética que incorpora responsabilidade, não apenas para consigo mesmo ou organização, mas para com os outros, define o AI Council. Utopia? Talvez. De toda forma é ótimo ver modelos participativos de governança de dados na agenda de grupos como Ada Lovelace. Tanto para entender as práticas existentes quanto para pensar sobre o futuro da governança de dados participativos. Seria viável, por exemplo, o surgimento de modelos derivados do framework do Ada Lovelace Institute, considerando a combinação de métodos participativos apropriados a determinados contextos de uso de dados?
Neste artigo da The Shift exploramos por que envolver as pessoas na gestão ou administração de dados pode restabelecer a confiabilidade, que por sua vez apóia a inovação.
Um pouco de contexto
À medida que a tomada de decisões se torna cada vez mais orientada por dados, é imperativo que os dados certos a conduzam: dados abrangentes, precisos e representativos. Dados ruins – ou incompletos – levarão a decisões mal informadas. Isso também pode levar a algoritmos ruins, mal treinados. A fenômenos como o overfitting e o underfitting.
Conjuntos de dados tendenciosos e não representativos causam a replicação de vieses em sistemas algorítmicos, como foi evidenciado em pesquisas nos Estados Unidos sobre sistemas algorítmicos usados em saúde e sentenças criminais, e em sistemas de reconhecimento facial.
Muitas vezes, os dados pessoais são tratados como exclusivos, monetizados por organizações e isolados de maneiras que inibem a pesquisa e o desenvolvimento para benefício público. Há um desequilíbrio no ecossistema de dados que leva o setor privado a desfrutar do monopólio dos dados gerados pelo público. Os pesquisadores há muito pedem às empresas de mídia social que compartilhem seus dados, mas os governos também se viram implorando às grandes plataformas de tecnologia por acesso a dados para facilitar a resposta à pandemia de Covid-19, por exemplo.
A crise atual demonstrou como as barreiras ao compartilhamento de dados podem ser temporariamente reduzidas e os dados compartilhados com grande benefício. À medida que a pandemia diminui e a legitimidade democrática para medidas excepcionais evaporam, surgem questões sobre como constituir a vontade política, a capacidade tecnológica e as salvaguardas legais necessárias para continuar a buscar acordos de compartilhamento e acesso de dados socialmente benéficos.
O programa Rethinking Data, do Ada Lovelace Institute, visa construir as instituições – técnicas, jurídicas, políticas – necessárias para garantir que os dados sejam distribuídos de forma justa e usufruídos de forma equitativa. E conceitos novos, como privacidade coletiva e de grupo e gestão participativa de dados, se estabeleçam.
As políticas de responsabilidade algorítmica devem priorizar a participação pública significativa como um objetivo central da política, para que qualquer implantação realmente atenda às necessidades das pessoas e comunidades afetadas, de acordo com um estudo global de algoritmos no setor público. O mesmo vale para organizações privadas comprometidas com os princípios ESG.
Os cidadãos podem participar na definição da forma como os dados serão usados. Mas as abordagens de governança de dados do setor privado muitas vezes não atendem às preocupações dos beneficiários dos dados e não incentivam aqueles que usam esses dados a considerar como suas escolhas podem melhor atender às necessidades daqueles que serão afetados por suas decisões.
Reequilibrar as assimetrias de poder pode contribuir para aumentar a confiança do público no uso de dados. E todos ganham.
A proposta
O framework proposto pelo Ada Lovelace Institute considera que, na era da “datafication“, o gerenciamento de dados opera não apenas em relação à coleta, processamento, organização, análise e uso de dados, mas também no projeto e desenvolvimento de sistemas baseados em dados, incluindo aqueles que visam prever, prescrever, observar, avaliar e, às vezes, influenciar o comportamento humano e social. Isso torna o gerenciamento de dados uma tarefa complexa, mas também aponta para seu potencial de gerar melhores resultados para as pessoas e a sociedade.
E que participação, em seu sentido mais fundamental, é o envolvimento das pessoas em influenciar as decisões que afetam suas vidas. No ambiente mediado pela tecnologia em que muitos de nós vivemos atualmente, as formas como os dados são usados podem impedir uma participação significativa.
A crença da organização é a de que é possível capacitar os beneficiários para afetar o projeto, o desenvolvimento e o uso de sistemas pelos administradores de dados.
A estrutura mostra primeiro como os mecanismos de administração de dados participativos podem buscar alcançar uma transparência significativa, respondendo aos direitos das pessoas de serem informadas sobre o que está acontecendo ou pode acontecer com os dados sobre elas.
Em seguida, a estrutura descreve os mecanismos e processos que podem ser construídos no sentido de compreender e responder às opiniões das pessoas ( consultar e envolver ) na tomada de decisão sobre os dados.
Em última análise, a visão é realizar as condições em que as pessoas podem colaborar ativamente com designers, desenvolvedores e implantadores de sistemas orientados por dados e (na medida do possível) são capacitadas a isso. As perspectivas dos beneficiários formam uma parte central do projeto de governança de dados, que então cria confiança e capacidade para que as pessoas continuem a participar do processo de governança de dados.
É importante observar primeiro que, embora as abordagens participativas possam assumir diferentes formas ou ter diferentes resultados pretendidos, na maioria das vezes não são mutuamente exclusivas e, na verdade, podem complementar-se mutuamente. Não existe uma única maneira ‘certa’ de fazer a participação, e a participação efetiva não é uma solução ou mecanismo “único”.
As questões complexas levantadas pela governança de dados não podem ser resolvidas por uma abordagem de “tamanho único” ou “de prateleira”. Os beneficiários podem participar em diferentes estágios do ciclo de dados – desde a coleta, armazenamento, limpeza e processamento de dados, bem como seu uso e implantação – e existem diferentes tipos, abordagens, métodos ou meios de participação que oferecem níveis de poder muito diferentes.
Há uma ampla gama de diferentes mecanismos, métodos e atividades participativos que podem ser usados para apoiar uma melhor governança de dados, dependendo do propósito e do contexto. Eles são descritos no deocumento do Ada Lovelace Instutute.
Alguns críticos argumentaram que confiar exclusivamente na transparência e na explicabilidade como mecanismos para envolver e envolver as pessoas na governança de dados pode criar uma ilusão de controle que não existe na realidade. Isso pode desviar a atenção de algumas práticas de dados mais prejudiciais que geram injustiça ou resultados discriminatórios.
Outros destacaram que o aumento da transparência sobre o uso e gerenciamento de dados força os formuladores de políticas a serem mais explícitos e transparentes sobre as escolhas que estão escolhendo fazer. Nesse contexto, argumentam que a explicabilidade não representa apenas um desafio técnico, mas também um desafio político sobre quais prioridades, objetivos e compensações escolher.
Mas, no fundo, são o primeiro passo para levar empresas, desenvolvedores e formuladores de políticas a entender melhor quais direitos consagrar, a fim de contribuir para o aumento da legitimidade – e da confiança pública – no uso de dados e IA que funcionam para pessoas e sociedade.
Atualmente, existem poucos exemplos de abordagens participativas para governar o acesso e o uso de dados e, portanto, poucos estudos sobre a eficácia desses métodos na prática. Os primeiros insights sugerem que esta abordagem pode não ser apropriada para todas as iniciativas de compartilhamento de dados, mas pode ser particularmente apropriada para aquelas que requerem uma abordagem cuidadosa, medida e colaborativa, geralmente envolvendo a coleta e o uso de dados que são altamente confidenciais (como com o Iniciativa Wellcome Trust, que se relaciona com dados de saúde mental).
Um relatório recente do thinktank de participação pública Involve conclui que existem três estágios potenciais nos quais a participação deliberativa pode ser viável no projeto de compartilhamento de dados ou iniciativas de acesso a dados (o que descrevemos neste relatório como uma estrutura de governança de dados), que justifica mais experimentação, teste e avaliação. São eles:
- Definição do escopo – alinhando o propósito e os valores da iniciativa de compartilhamento ou acesso a dados, antes de seu estabelecimento.
- Co-design – desenvolver critérios, estrutura ou princípios para garantir que seu processo de tomada de decisão atenda às necessidades e expectativas das partes interessadas mais amplas e do público, e desenvolver políticas sobre a distribuição de valor (ou seja, quem se beneficia com o uso dos dados, e se existe um valor público ou social mais amplo que daí advém).
- Avaliação – implantação de abordagens participativas para garantir que o impacto pretendido da iniciativa de acesso foi alcançado, que os resultados e o potencial foram maximizados e para garantir a responsabilidade e o escrutínio adequados em torno das reivindicações de acesso e uso de dados. Esta reflexão sobre o funcionamento da iniciativa pode ser contínua e também retrospectiva .
Outro exemplo de abordagem colaborativa para governança de dados é o modelo de ‘doação de dados’, que tem como base a premissa de que aqueles que contribuem ou doam seus dados esperam ver certos termos e condições realizados em torno do processo de doação. Normalmente, um termo ou condição girará em torno de uma articulação clara de ‘benefício público’ ou ganho social mais amplo.
Em contraste com as abordagens mais ‘extrativistas’ para governança de dados, onde as abordagens para coleta e mineração de dados sobre as pessoas podem ocorrer clandestinamente, os mecanismos de doação de dados são uma rota através da qual os indivíduos podem concordar explicitamente em compartilhar seus dados para benefícios sociais e coletivos mais amplos sob termos e condições claros.
As iniciativas de doação de dados podem fazer parte de um estudo de pesquisa, em que os titulares dos dados contribuem voluntariamente com seus próprios dados pessoais para uma finalidade específica. Outro modelo, que está ganhando popularidade cada vez mais, é que os titulares dos dados podem optar por compartilhar dados que já foram gerados para uma finalidade diferente. Por exemplo, pessoas que usam dispositivos vestíveis para rastrear suas próprias atividades podem optar por compartilhar seus dados com terceiros).
Evidências emergentes sugerem que encorajar as pessoas a compartilhar dados para fins pró-sociais é um forte motivador e uma base fundamental para a confiança do público na eficácia da abordagem. Um recente estudo de pesquisa da Universidade de Bristol sobre a psicologia da doação de dados descobriu que o preditor mais forte da decisão de doar dados era servir à sociedade, e que conhecer as consequências e os benefícios potenciais da doação de dados foi um fator crítico que influencia as decisões das pessoas em participar. Aqui, a governança de dados torna-se um esforço colaborativo, em que a legitimação, o consentimento e os motivos pró-sociais dos doadores de dados tornam-se centrais para a viabilidade e a eficácia da abordagem.
Capacitar os beneficiários de dados permite que eles exerçam total poder de gestão e agência e assumam a responsabilidade por exercer e gerenciar ativamente as decisões sobre governança de dados – especificamente, como os dados são acessados, compartilhados, administrados e usados. Nesse modelo, a dinâmica de poder é transferida do administrador de dados para o beneficiário dos dados que toma a decisão, aconselhado, quando necessário, por especialistas apropriados.
Exemplos dessas abordagens são relativamente raros, mas existem, estão surgindo cada vez mais.
Ao projetar um processo participativo para atender a um objetivo específico, a escolha sobre quem envolver importa tanto quanto quais tipos de envolvimento ou mecanismos de participação são usados. Essas escolhas dependerão do contexto, mas a gama de atores que podem ser definidos como beneficiários é ampla e se estende além daqueles que projetam e implantam sistemas baseados em dados e estruturas de governança, para aqueles que são afetados por eles.
Quando os mecanismos participativos são introduzidos, as principais questões que os desenvolvedores de sistemas baseados em dados e estruturas de governança devem responder sobre quem envolver (quem são seus beneficiários) serão:
- Quem tem interesse nos resultados que surgem?
- Quem tem maior probabilidade de ser diretamente afetado e impactado , beneficiando ou sendo impactado negativamente?
- Quem tem maior probabilidade de ser super-representado e / ou sub-representado nos dados?
Essas três questões-chave são informadas pelo reconhecimento de que a responsabilidade dos administradores de dados não é apenas gerenciar os dados em si de forma eficaz, mas também reconhecer que os dados geralmente estão relacionados, direta ou indiretamente, às pessoas (beneficiários).
Além de reconhecer os direitos dos titulares dos dados e os benefícios e danos potenciais do uso dos dados para os beneficiários, os administradores de dados precisam entender que, quando os dados omitem ou excluem pessoas, podem ter consequências prejudiciais. Isso pode acontecer, por exemplo, ao discriminar ou sub-representar os interesses e preocupações de algumas pessoas. Isso significa que a participação pode significar tanto incluir ou envolver quem não tem uma relação direta com os dados reunidos, quanto quem tem.
Dessa forma, segundo o pessoal da Ada Lovelace Institute, o envolvimento precoce e contínuo com os beneficiários e aqueles com maior probabilidade de serem afetados pelo uso e implantação de sistemas baseados em dados pode ajudar a fundaamentar as decisões sobre o design desses sistemas de forma a criar melhores resultados para aqueles que projetam, desenvolvem e implantam sistemas baseados em dados e estruturas de governança, bem como para as pessoas e a sociedade.
Os benefícios da participação efetiva para designers e desenvolvedores incluem:
- Melhor compreensão das questões e preocupações éticas e práticas: Habilitando desenvolvedores e designers a entender melhor as preocupações e desafios éticos do público e entender melhor as perspectivas, valores, compensações e escolhas do público. A administração participativa de dados também pode informar e afetar a qualidade dos dados incorporados a um sistema.
- Projeto mais ponderado de sistemas e estruturas informadas por pensamento diverso: Melhoria na tomada de decisão sobre desenvolvimento e projeto que reflete e leva em consideração uma diversidade de experiências e perspectivas.
- A antecipação e gerenciamento de risco no desenvolvimento e design de sistemas ou estruturas: A capacidade de gerenciar riscos no desenvolvimento e design, particularmente aqueles sistemas ou estruturas que são complexos e controversos por causa de dados confidenciais, contornando e abordando o risco de ‘techlash’ . A participação também pode reduzir os custos de longo prazo para desenvolvedores e designers de tecnologia.
- Estruturas de governança de dados de alta qualidade: na governança de dados corporativos, muitas vezes há falta de documentação ou conhecimento sobre o contexto em que um determinado conjunto de dados foi coletado, por exemplo, quais níveis de consentimento ele tem ou quais eram os usos pretendidos do titular dos dados . Quando a geração de dados é opaca e invisível para o titular dos dados, sua legitimidade como fonte de dados é frequentemente assumida por meio de termos e condições ou totalmente ignorada. Isso pode levar a violações downstream da integridade contextual desses dados. A incorporação da administração participativa de dados envolve a mudança de incentivos institucionais na prática corporativa, para priorizar a melhoria da qualidade dos dados sobre a quantidade de dados (um ethos ‘menos é mais’), com os benefícios de conjuntos de dados mais claros, de maior qualidade e adequados à finalidade.
O objetivo é criar um ciclo virtuoso, onde a participação efetua mudanças substanciais na prática, e a confiança pública e gerada por abordagens participativas afetam melhores resultados no uso de dados.