29 KiB

Raw Blame History

Introdução a Ética de Dados


Ética em Ciência de Dados - Sketchnote por [@nitya](https://twitter.com/nitya)

Nós somos todos cidadãos dos dados vivendo em um mundo de dados.

Tendências do mercado nos mostram que até 2022, 1 em 3 grandes organizações irá comprar e vender seus dados através de Marketplaces e Exchanges online. Como Desenvolvedores de Aplicativos, nós vamos achar mais fácil e mais barato integrar insights baseados em dados e automações baseadas em algoritmos nas experiências diárias dos usuário. Mas conforme IA se torna mais difundida, nós também vamos precisar entender os danos potenciais causado pelo uso desses algoritmos como uma arma.

Tendências também indicam que nós vamos criar e consumir mais de 180 zettabytes de dados em 2025. Como Cientistas de Dados, isso nos dará níveis de acesso sem precedentes à dados pessoais. Isso significa que poderemos construir perfis comportamentais dos usuário e influenciar tomadas de decisão de uma forma que crie a ilusão da livre escolha enquanto potencialmente direcionando os usuários na direção do resultado que nós preferimos. Isso também levanta questões mais amplas sobre privacidade dos dados e proteção dos usuários.

Ética dos dados é agora uma proteção necessário para ciẽncia de dados e engenharia, nos ajudando a minimizar potenciais danos e consequências não intencionas das nossas ações realizadas com base em dados. O Gartner Hype Cycle for AI identifica tendências relevantes ná ética digital, IAs responsáveis, e governanças de IA como principais impulsionadores para grandes mega tendências sobre democratização e industrialização da IA.

Nessa aula, nós vamos explorar a área fascinante de ética dos dados - desde conceitos essenciais e desafios, para estudos de caso e conceitos de IA aplicados como governança - isso ajuda a estabelecer a cultura da ética nos times e organizações que trabalham com dados e IA.

Quiz pré aula 🎯

Definição Básica

Vamos começar entendendo o básico da terminologia.

A palavra “ética” vem da palavra Grega “ethikos” (e sua raíz “ethos”) que significa caráter ou natureza moral.

Ética é sobre os valores e princípios morais compartilhados que governam o nosso comportamento em sociedade. Ética é baseada não nas leis mas nas normas amplamente aceitas sobre o que é “certo vs. errado”. No entanto, considerações éticas podem influenciar iniciativas de governança corporativa e regulamentações governamentais que criam mais incentivos para conformidade (compliance).

Ética de Dados é uma nova ramificação da ética que “estuda e avalia problemas morais relacionados a dados, algoritmos e práticas correspondentes”. Aqui, “dados” focam nas ações relacionadas a geração, gravação, curadoria, disseminação de processamento, compartilhamento, e uso, “algoritmos” focam em IA, agentes, aprendizado de máquina, e robôs, e “práticas” focam em tópicos como inovação responsável, programação, hacking e códigos de ética.

Ética Aplicada é a aplicação prática de considerações morais. É o processo de investigar ativamente problemáticas éticas no contexto de ações do mundo real, produtos e processos, e tomar medidas corretivas para fazer com que esses permanecam alianhados com o nossos valores éticos definidos.

Cultura Ética é sobre operacionalizar a ética aplicada para garantir que nossos princípios e práticas éticas sejam adotados de maneira consistente e escalável em toda a organização. Culturas éticas de sucesso definem princípios éticos em toda a organização, fornecem incentivos significativos para consistência, e reinforça as normas éticas encorajando e amplificando comportmentos desejados em todos os níveis da organização.

Conceitos Éticos

Nessa seção, nós vamos discutir conceitos como valores compartilhados (princípios) e desafios éticos (problemas) para a ética de dados - e explorar estudos de caso que ajudam você a entender esses conceitos em contextos do mundo real.

1. Princípios Éticos

Toda estratégia de ética de dados começa definindo pricípios éticos - os “valores compartilhados” que descrevem comportamentos aceitáveis, e guia ações complacentes, nos nossos dados e nos projetos de IA. Você pode definir eles individualmente ou com um time. No entando, a maioria das grandes organizações descreve eles em uma declaração de missão ou de estrutura de IA ética que é definida em níveis corporativos e aplicadas consistentemente em todos os times.

Exemplo: a declaração de missão da IA responsável da Microsoft afirma: “Estamos comprometidos com o avanço da AI impulsionados por princípios éticos que colocam as pessoas em primeiro lugar.” - identificando 6 princípios éticos na estrutura abaixo:

Vamos explorar brevemente esses princípios. Transparência e responsabilidade são valores fundamentais nos quais outros princípios construíram sobre - então vamos começar aí:

Responsabilidade torna os profissionais responsáveis pelos seus dados e operações da IA, e conformidade (compliance) com esses princípios éticos.
Transparência garante que os dados e as ações da IA são compreesíveis (interpretáveis) para os usuários, explicando o que e o porquê por trás de cada decisão.
Justiça - foca em garantir que a IA trate todas as pessoas de forma justa, abordando quaisquer preconceitos sociotécnicos implícitos ou sistêmicos nos dados e sistemas.
Confiabilidade e Segurança - garante que a IA comporte de maneira consistente com os valores definidos, minimizando potenciais danos ou consequências não pretendidas.
Segurança e Privacidade - é sobre compreender as linhagem dos dados, e fornecer privacidade de dados e proteções relacionadas aos usuários.
Inclusão - é sobre projetar soluções de IA com intenção, adaptando elas para atender uma vasta game de necessidades humanas & capacidades.

🚨 Pense sobre qual poderia ser a frase de missão da sua ética de dados. Explore estruturas éticas de IA de outras organizações - aqui estão alguns exemplos da IBM, Google, e Facebook. Quais valores compartilhados vocês tem em comum? Como esses princípios se relacionam ao produto de IA ou à indústria na qual eles operam?

2. Desafios de Ética

Uma vez que nossos princípios éticos estão definidos, o próximo passo é avaliar nossos dados e ações da IA para ver se eles estão alinhados com aqueles valores compartilhados. Pense sobre suas ações em duas categorias: coleção de dados e design de algoritmo.

Com coleções dados, ações irão, provavelmente, envolver dados pessoais ou informação pessoalmente identificável (do Inglês, personally identifiable information, ou PII) para indivíduos vivos identificáveis. Isso inclui itens diversos de dados não pessoais que coletivamente identificam um indivíduo. Desafios éticos podem estar relacionados à privacidade dos dados, qualidade dos dados, e tópicos relacionados como consentimento informado e direitos de propriedades intelectuais para os usuários.

Com o design de algoritmo, as ações envolverão coleta e curadoria dos datasets, e então o uso deles para treinar e implantar modelos de dados que predizem resultados ou automatizam decisões em contextos do mundo real. Desafios éticos podem surgir de vieses do dataset (biases), problemas com a qualidade de dados, injustiça, e má representação nos algoritmos - incluindo alguns problemas que são sistêmicos na natureza.

Em ambos os casos, desafios de ética destacam áreas onde nossas ações podem conflitar com nossos valores compartilhados. Para detectar, mitigar, minimizar, ou eliminar, essas preocupações - nós precisamos perguntar questões morais de “sim ou não” relacionadas as nossas ações, e então tomar uma ação corretiva conforme necessário. Vamos olhar alguns desafios éticos e as questões morais que eles levantam:

2.1 Propriedade de Dados

A coleta de dados geralmente envolve dados pessoais que podem identificar os titulares dos dados. Propriedade de dados é sobre o controle e direitos dos usuários relacionados à criação, processamento, e disseminação dos dados.

As questões morais que precisamos nos perguntar são: * Quem detêm/possui os dados? (usuário ou organização) * Quais direitos os titulares dos dados tem? (ex: acesso, apagar, portabilidade) * Quais direitos as organizações tem? (ex: retificar reviews maliciosas de usuários)

2.2 Consentimento Informado

Consentimento Informado define o ato dos usuários aceitar uma ação (como a coleta de dados) com um compreendimento total de fatos relevantes incluindo propósito, potenciais riscos, e alternativas.

Questões a se explorar aqui são: * O usuário (titular dos dados) deu permissão para a captação e uso dos dados? * O usuário entendeu o propósito para o qual aqueles dados foram coletados? * O usuário entendeu os potenciais riscos de sua participação?

2.3 Propriedade Intelectual

Propriedade intelectual se refere a criações intangíveis que foram resultados das iniciativas humanas, que podem ter valor econômico para indivíduos ou negócios.

Questões a se explorar aqui são: * Os dados coletados tem valor econômicos para um usuário ou negócio? * O usuário tem propriedade intelectual aqui? * As organizações tem propriedade intelectual aqui? * Se esses direitos existem, como estamos protejendo eles?

2.4 Privacidade de Dados

Privacidade de dados ou privacidade da informação se refere a preservação da privacidade do usuário e proteção da identidade do usuário com relação as informações de indentificação pessoal.

Questões a se explorar aqui são: * Os dados (pessoais) dos usuários estão protegidos contra hacks e vazamentos? * Os dados do usuário são acessíveis somente a usuários e contextos autorizados? * A anonimidade do usuário são preservados quando os dados são compartilhados ou disseminados? * Um usuário podem ser desindentificado de datasets anônimos?

2.5 Direito a Ser Esquecido

o Direito a Ser Esquecido ou Direito de Apagar fornecem proteções de dados adicionais para os usuários. Especificamente, dá aos usuários o direito de pedir deleção ou remoção dos dados pessoais das buscas da Internet e outros locais, sobre circunstâncias específicas - permitindo a eles um novo começo online sem que as ações passadas sejam colocadas contra eles.

Questões a se explorar aqui são: * O sistema permite que os titulares dos dados peçam o apagamento dos mesmos? * A retirada do consentimento do usuário deve acionar um apagamento automático? * Dados foram colocados sem o consentimento ou por meios ilegais? * Estamos de acordo com regulações governamentais para a privacidade de dados?

2.6 Viéses dos Datasets

Viéses da Coleção ou do Dataset é sobre selecionar um subset de dados não representativos para o desenvolvimento de um algoritmo, criando potenciais injustiças nos resultados para grupos diversos. Os tipos de viéses incluem seleção ou viés da amostra, viés voluntário, e viés do instrumento.

Questões a se explorar aqui são: * Recrutamos um conjunto representativo de titulares de dados? * Nós testamos nossos datasets colecionados ou com curadoria para diversos viéses? * Nós podemos mitigar ou remover quaisquer viéses descobertos?

2.7 Qualidade de Dados

Qualidade de Dados procura pela validade do dataset com curadoria usado para desenvolver nossos algoritmos, checando para ver se recursos e registros atendem os requisitos para o nível de acurácia e consistência necessários para o propósito da nossa IA.

Questões a se explorar aqui são: * Nós coletamos features válidos para nosso caso de uso? * Os dados foram coletados consistentemente em diversas fontes de dados? * O dataset é completo para diversas condições e cenários? * As informações capturadas refletem com precisão a realidade?

2.8 Justiça do Algoritmo

Justiça do Algoritmo checa para ver se o design do algoritmo discrimina sistematicamente subgrupos específicos dos titulares dos dados levando a potenciais danos em alocação (onde recursos são negados ou detidos daquele grupo) e qualidade de serviço (onde IA não é tão acurada para alguns subgrupos quanto é para outros).

Questões a se explorar aqui são: * Nós avaliamos a acurácia do modelo para diversos subgrupos e condições? * Nós examinamos o sistema em busca de danos potenciais (ex. estereótipos)? * Nós podemos revisar os dados ou retreinar os modelos para mitigar danos identificados?

Explore recursos como Checklist de Justiça de IA para saber mais.

2.9 Má Representação

Má Representação dos Dados é sobre perguntar se nós estamos comunicando insights de dados honestamente relatados de uma maneira enganosa para suportar uma narrativa desejada.

Questões a se explorar aqui são: * Estamos relatando dados completos ou inacurados? * Estamos visualizando dados de uma maneira que conduz a uma conclusão errada? * Estamos usando técnicas estatísticas seletivas para manipular os resultados? * Existem explicações alternativas que podem oferecer uma conclusão diferente?

2.10 Livre Escolha

A Ilusão da Livre Escolha ocorre quando as “arquiteturas de escolha” do sistema utiliza algoritmos de tomada de decisão para incentivar as pessoas a obterem um resultado preferido enquanto parece lhe dar opções e controle. Esses dark patterns podem causar danos sociais e econômicos aos usuários. Já que as decisões do usuário impactam perfis de comportamento, essas ações potencialmente conduzem as escolhas futuras que podem aplificar ou extender o impacto desses danos.

Questões a se explorar aqui são: * O usuário entende as implicações de fazer aquela escolha? * O usuário estava ciente das escolhas (alternativas) e dos prós e contras de cada uma? * O usuário pode reverter um escolha automatizada ou influenciada depois?

3. Estudo de Casos

Para colocar esses desafios éticos em contextos do mundo real, ajuda olhar para estudo de casos que destacam potenciais danos e consequências para indivíduos e sociedade, quando essas violações éticas são negligenciadas.

Aqui estão alguns exemplos:

Desafios de Éticas	Estudo de Caso
Consentimento Informado	1972 - Tuskegee Syphillis Study - Homens afro-americanos que participaram no estudo foram prometidos cuidados médicos livres de custo mas foram enganados pelos pesquisadores que não informaram os participantes de seus diagnósticos ou sobre a avaliabilidade de tratamentos. Muitos participantes morreram e parceiros e ciranças foram afetados; oe studo durou por 40 anos.
Privacidade de Dados	2007 - O Netflix data prize forneceu a pesquisadores 10M de avaliações anônimas de filmes de 50K clientes para ajudar a melhorar os algoritmos de recomendação. No entanto, os pesquisadores conseguiram correlacionar os dados anônimos com dados de identificação pessoal em datasets externos (ex. comentários no IMDb) - “desanonimizando” efetivamente alguns assinates da Netflix.
Viéses dos Datasets	2013 - A Cidade de Boston desenvolveu Street Bump, um aplicativo que deixa os usuários relatarem burcos nas ruas, dando à cidade melhores dados rodoviários para encontrar e consertar problemas. No entanto, pessoas que faziam parte de grupos de baixa renda tinham menos acesso a carros e celulares, fazendo com que os seus problema rodoviários fossem invisíveis nesse aplicativo. Desenvolvedores trabalharm com acadêmicos para questões de acesso equitativo e divisões digitais para justiça.
Justiça do Algoritmo	2018 - O Gender Shades Study do MIT avaliou a acurácia de produtos de IA de classificação de gêneros, expondo lacunas na acurácia para mulheres e pessoas não brancas. Um Apple Card de 2019 parece oferecer menos créditos para mulheres do que oferece para homens. Ambos ilustraram questões de viés algorítmico levando a danos socioeconômicos.
Má Representação de Dados	2020 - O Departamento de Sáude Pública da Georgia (Georgia Department of Public Health) liberou gráficos da COVID-19 que aparentam a levar os cidadãos a conclusões errôneas sobre as tendências em casos confirmados em uma ordem não cronológica no eixo x. Isso ilustra a má representação atráves de truques de visualização.
Ilusão da Livre Escolha	2020 - Aplicativo de aprendizado ABCmouse pagou $10M para resolver uma reclamação do FTC onde os pais foram enganados a pagar assinaturas que eles não podiam cancelar. Isso ilustra “dark patterns” em arquiteturas de escolha, onde usuários foram direcionados a escolhas potencialmente prejudiciais.
Privacidade de Dados & Direitos do Usuário	2021 - Violação de Dados do facebook expôs dados de mais de 530M de usuários, resultando em um acordo de $5B com o FTC (Federal Trade Commission). No entanto, o Facebook se recusou a notificar os usuários sobre a violação dos dados violando os direitos dos usuários de transparência e acesso de dados.

Gostaria de explorar mais estudos de caso? Confira: * Ethics Unwrapped - dilemas éticos em indústrias diversas. * Data Science Ethics course - estudos de caso marcantes explorados. * Where things have gone wrong - checklists da deon com exemplos

🚨 Pense sobre estudos de caso que você ja viu - você ja experienciou, ou foi afetado por, um desafio ético similar em sua vida? Voce consegue pensar em pelo menos um estudo de caso que ilustre um ou mais desafios éticos que discutimos nessa seção?

Ética aplicada

Nós falamos sobre conceitos de éticas, desafios, e casos de estudo em contextos do mundo real. Mas como nós começamos a aplicar esses princípios éticos em nossos projetos? E como nós operacionalizamos essas práticas para melhor governância? Vamos explorar algumas soluções do mundo real:

1. Códigos Profissionais

Códigos Profisionais oferecem uma opção para organizações para “incentivar” membros a apoiar os princípios éticos e frase de missão. Códigos são diretrizes morais para comportamento profissional, ajudando funcionários ou membros a tomar decisões que alinhem com os princípios da sua organização. Eles são tão bons quanto a conformidade voluntária dos membros; no entanto, muitas organizações oferecem recompensas e penalidades adicionais para motivar a conformidade dos membros.

Exemplos incluem:

Oxford Munich Código de Ética
Data Science Association Código de Conduta (criado em 2013)
ACM Code of Ethics and Professional Conduct (desde 1993)

🚨 Você faz parte de uma organização profissional de engenharia ou de ciências de dados? Explore o site deles para ver se eles definem um código de ética profissional. O que diz sobre os princípios éticos deles? Como eles estão “incentivando” os membros a seguir o código?

2. Checklists de Éticas

Enquanto códigos profissionais definem comportamentos ético requiridos de seus praticantes, eles tem limitações conhecidas na execução, particularmente em projetos de larga escala. Ao invés disso, muitos experts em Ciência de Dados defendem as checklists, que podem conectar princípios a práticas de maneiras para determinísticas e acionáveis.

Checklists convertem as questões em tarefas de “sim/não” que podem ser operacionalizadas, permitindo eles serem rastreados como parte dos fluxos de trabalho de liberação de produtos padrão.

Exemplos incluem: * Deon - uma checklist de propósito gerak criado a partir de recomendações da insústria com uma ferramenta de linha de comando para fácil integração. * Privacy Audit Checklist - fornece orientação geral para práticas de manipulação de informação a partir de perspectivas de exposição legal e social. * AI Fairness Checklist - criado por praticantes de IA para apoiar a adoção e integração de verificações de justiça dentro dos ciclos de desenvolvimento de IA. * 22 questions for ethics in data and AI - estrutura mais aberto-fechado, estrturado para exploração inicial de problemas éticos em contextos de design, implementação, e organizacional.

3. Regulações Éticas

Ética é sobre definir valores compartilhados e fazer a coisa certa voluntariamente. Compliance (Conformidade) é sobre seguir a lei se e onde definida. Governância abrange amplamente todos as formas de como as organizações operam para garantir princípios éticos e cumprir as leis estabelecidas.

Hoje, governância assume duas formas dentro das organizações. Primeira, é sobre definir princípios de IA ética e estabelecer práticas para operacionalizar a adoção em todos os projetos de IA na organização. Segundo, trata-se de cumprir com todos os regulamentos de proteção de dados para as regiões em que operam.

Exemplos de proteção de dados e regulamentos de privacidade:

1974, US Privacy Act - regula a coleta, o uso, e divulgação de informações pessoais por parte do governo federal.
1996, US Health Insurance Portability & Accountability Act (HIPAA) - protege dados de sáude pessoais.
1998, US Children’s Online Privacy Protection Act (COPPA) - protege a privacidade de dados de crianças menores de 13 anos de idade.
2018, General Data Protection Regulation (GDPR) - fornece direitos aos usuário, proteção de dados, e privacidade.
2018, California Consumer Privacy Act (CCPA) dá aos consumidores mais direitos sobre seus dados (pessoais).
2021, A Lei de Proteção de Informação Pessoal da China acabou de ser passado, criando uma das regulações de privacidade de dados online mais forte do mundo.

🚨 A GDPR (General Data Protection Regulation) da União Europia continua sendo umas das regulações de privacidade de dados mais influentes hoje em dia. Você sabia que a mesma também define 8 direitos dos usuário para proteger a privacidade dos cidadãos e dados pessoais? Saiba mais sobre o que são e porque eles importam.

4. Cultura Ética

Note que existe uma lacuna intangível entre compliance (fazer o suficiente para cumprir a “a carta da lei”) e abordar problemas sistêmicos (como ossificação, assimetria informacional, e injustiça distribucional) que podem acelerar o uso da IA como uma arma.

Este último requere abordagens colaborativas para definir culturas éticas que constrói conexões emocionais e valores compartilhados consistentes em todas as organizações na indústria. Isso requere mais culturas de ética de dados formalizadas nas organizações - permitindo qualquer um a puxar o cordão Andom (para aumentar as preocupações éticas mais cedo no processo) e fazendo avaliações éticas (ex. na contratação) um critério fundamental na formação de times em projetos de IA.

Quiz pós aula 🎯

Revisão e Autoestudo

Cursos e livros ajudam a entender os conceitos essencias da ética, enquanto estudos de caso e ferramentas ajudam com práticas da ética aplicado em contextos do mundo real. Aqui estão alguns recursos para começar.

Machine Learning For Beginners - aula sobre Justiça, da Microsoft.
Principles of Responsible AI - programa de aprendizado gratuito da Microsoft Learn.
Ethics and Data Science - O’Reilly EBook (M. Loukides, H. Mason et. al)
Data Science Ethics - curso online da Universidade de Michigan.
Ethics Unwrapped - estudos de caso da Universidade do Texas.

Tarefa

Escreva um Caso de Uso de Ética de Dados

29 KiB Raw Blame History Unescape Escape