29 KiB

Raw Blame History

Inleiding tot gegevensethiek


Ethiek van gegevenswetenschap - Sketchnote door [@nitya](https://twitter.com/nitya)

We zijn allemaal databurgers die in een datafied wereld leven.

Markttrends vertellen ons dat tegen 2022 1-op-3 grote organisaties hun data zullen kopen en verkopen via online Marketplaces and Exchanges. Als App-ontwikkelaars zullen we het gemakkelijker en goedkoper vinden om gegevensgestuurde inzichten en algoritmegestuurde automatisering te integreren in dagelijkse gebruikerservaringen. Maar naarmate AI steeds meer voorkomt, moeten we ook de mogelijke schade begrijpen die wordt veroorzaakt door de bewapening van dergelijke algoritmen op grote schaal.

Trends geven ook aan dat we tegen 2025 meer dan 180 zettabytes aan gegevens zullen creëren en consumeren. Als Data Scientists geeft dit ons ongekende niveaus van toegang tot persoonlijke gegevens. Dit betekent dat we gedragsprofielen van gebruikers kunnen maken en de besluitvorming kunnen beïnvloeden op een manier die een illusie van vrije keuze creëert, terwijl gebruikers aangespoord worden naar resultaten die onze voorkeur hebben. Het roept ook bredere vragen op over gegevensprivacy en gebruikersbescherming.

Gegevensethiek is nu een noodzakelijke vangrails voor datawetenschap en -engineering, waardoor we mogelijke schade en onbedoelde gevolgen van onze gegevensgestuurde acties kunnen minimaliseren. De Gartner Hype Cycle for AI identificeert relevante trends in digitale ethiek, verantwoorde AI en AI-governance als belangrijke drijfveren voor grotere megatrends rond democratisering en industrialisering van AI.

In deze les verkennen we het fascinerende gebied van data-ethiek - van kernconcepten en uitdagingen tot casestudy’s en toegepaste AI-concepten zoals governance - die helpen een ethische cultuur tot stand te brengen in teams en organisaties die met data en AI werken.

Pre-college quiz 🎯

Basisdefinities

Laten we beginnen met het begrijpen van de basisterminologie.

Het woord “ethiek” komt van het Griekse woord “ethikos” (en de wortel “ethos”) wat karakter of morele aard betekent.

Ethiek gaat over de gedeelde waarden en morele principes die ons gedrag in de samenleving bepalen. Ethiek is niet gebaseerd op wetten maar op algemeen aanvaarde normen van wat “goed versus fout” is. Ethische overwegingen kunnen echter van invloed zijn op initiatieven op het gebied van corporate governance en overheidsregelgeving die meer prikkels voor compliance creëren.

Data-ethiek is een nieuwe tak van ethiek die “morele problemen met betrekking tot data, algoritmen en overeenkomstige praktijken” bestudeerd. Hier richt “data” zich op acties met betrekking tot het genereren, opnemen, beheren, verwerken, verspreiden, delen en gebruiken. “Algoritmen” richt zich op AI, agents, machine learning en robots, en “practices” richt zich op onderwerpen als verantwoord innoveren, programmeren, hacken en ethische codes.

Toegepaste ethiek is de praktische toepassing van morele overwegingen. Het is het proces van het actief onderzoeken van ethische kwesties in de context van real-world acties, producten en processen, en het nemen van corrigerende maatregelen om ervoor te zorgen dat deze in overeenstemming blijven met onze gedefinieerde ethische waarden.

Ethische cultuur gaat over toegepaste ethiek activeren om ervoor te zorgen dat onze ethische principes en praktijken worden toegepast in een consistente en schaalbare manier door de hele organisatie heen. Succesvolle ethische culturen definiëren organisatiebrede ethische principes, bieden zinvolle prikkels voor naleving en versterken ethische normen door gewenst gedrag op elk niveau van de organisatie aan te moedigen en te versterken.

Ethische concepten

In dit gedeelte bespreken we concepten als gedeelde waarden (principes) en ethische uitdagingen (problemen) voor data-ethiek - en onderzoeken we casestudy’s die je helpen deze concepten in context van de echte wereld te begrijpen.

1. Ethische principes

Elke data-ethiekstrategie begint met het definiëren van ethische principes - de ‘gedeelde waarden’ die acceptabel gedrag beschrijven en richting geven aan daaraan conformerende acties in onze data- en AI-projecten. Je kunt deze op individueel of teamniveau definiëren. De meeste grote organisaties schetsen deze echter in een ethische AI-missieverklaring of -kader dat op bedrijfsniveau is gedefinieerd en consistent wordt gehandhaafd in alle teams.

Voorbeeld: Microsoft’s Responsible AI mission statement luidt: “We zetten ons in voor de vooruitgang van AI-driven door ethische principes die de mens centraal stellen” - door middel van 6 ethische principes in het onderstaande kader:

Laten we deze principes kort onderzoeken. Transparantie en accountability zijn fundamentele waarden waarop andere principes voortbouwen - dus laten we daar beginnen:

Verantwoording maakt beoefenaars verantwoordelijk voor hun gegevens- en AI-operaties, en naleving van deze ethische principes.
Transparantie zorgt ervoor dat gegevens en AI-acties begrijpelijk (interpreteerbaar) zijn voor gebruikers, zoals het wat en waarom achter beslissingen.
Eerlijkheid - richt zich op het waarborgen dat AI alle mensen eerlijk behandelt, waarbij alle systemische of impliciete socio-technische vooroordelen in data en systemen worden geaddresseerd.
Betrouwbaarheid en veiligheid - zorgt ervoor dat AI zich consistent gedraagt met gedefinieerde waarden, waardoor potentiële schade of onbedoelde gevolgen worden geminimaliseerd.
Privacy en beveiliging - gaat over het begrijpen van gegevensafstamming en het bieden van gegevensprivacy en gerelateerde beschermingen voor gebruikers.
Inclusiviteit - gaat over het ontwerpen van AI-oplossingen met intentie, ze aanpassen om te voldoen aan een brede scala aan menselijke behoeften en mogelijkheden.

🚨 Denk na over wat jouw missie voor gegevensethiek zou kunnen zijn. Verken ethische AI-kaders van andere organisaties - hier zijn voorbeelden van IBM, Google, en Facebook. Welke gedeelde waarden hebben ze gemeen? Hoe verhouden deze principes zich tot het AI-product of de industrie waarin ze actief zijn?

2. Ethische uitdagingen

Zodra we ethische principes hebben gedefinieerd, is de volgende stap het evalueren van onze gegevens en AI-acties om te zien of ze in overeenstemming zijn met die gedeelde waarden. Denk na over je acties in twee categorieën: gegevensverzameling en algoritmeontwerp.

Bij het verzamelen van gegevens zullen acties waarschijnlijk betrekking hebben op persoonlijke gegevens of persoonlijk identificeerbare informatie (PII) voor identificeerbare levende personen. Dit omvat diverse items van niet-persoonlijke gegevens die collectief een persoon identificeren. Ethische uitdagingen kunnen betrekking hebben op gegevensprivacy, eigendom van gegevens en gerelateerde onderwerpen zoals geïnformeerde toestemming en intellectuele eigendomsrechten voor gebruikers.

Bij het ontwerpen van algoritmen zullen acties bestaan uit het verzamelen en beheren van datasets, en deze vervolgens gebruiken om datamodellen te trainen en in te zetten die resultaten voorspellen of beslissingen automatiseren in reële contexten. Ethische uitdagingen kunnen ontstaan door dataset bias, data quality issues, unfairness en misrepresentation (onvoldoende vertegenwoordiging) in algoritmen - inclusief enkele problemen die systemisch van aard zijn.

In beide gevallen wijzen ethische uitdagingen op gebieden waar onze acties in conflict kunnen komen met onze gedeelde waarden. Om deze zorgen op te sporen, te verminderen, te minimaliseren of weg te nemen, moeten we morele “ja/nee”-vragen stellen met betrekking tot onze acties en vervolgens corrigerende maatregelen nemen als dat nodig is. Laten we eens kijken naar enkele ethische uitdagingen en de morele vragen die ze oproepen:

2.1 Gegevenseigendom

Bij het verzamelen van gegevens gaat het vaak om persoonsgegevens die de betrokkenen kunnen identificeren. Data-eigendom gaat over controle en gebruikers rechten met betrekking tot het aanmaken, verwerken en verspreiding van gegevens.

De morele vragen die we moeten stellen zijn: * Wie is eigenaar van de gegevens? (gebruiker of organisatie) * Welke rechten hebben betrokkenen? (bijvoorbeeld: toegang, wissen, overdraagbaarheid) * Welke rechten hebben organisaties? (bijvoorbeeld: kwaadwillende gebruikersrecensies corrigeren)

2.2 Geïnformeerde toestemming

Informed consent definieert de handeling van gebruikers die instemmen met een actie (zoals gegevensverzameling) met een volledig begrip van relevante feiten, waaronder het doel, potentiële risico’s en alternatieven.

Vragen om hier te onderzoeken zijn: * Heeft de gebruiker (betrokkene) toestemming gegeven voor het vastleggen en gebruiken van gegevens? * Begreep de gebruiker het doel waarvoor die gegevens werden vastgelegd? * Begreep de gebruiker de mogelijke risico’s van zijn deelname?

2.3 Intellectuele eigendom

Intellectuele eigendom verwijst naar immateriële creaties die het resultaat zijn van menselijk initiatief en die economische waarde kunnen hebben voor individuen of bedrijven.

Vragen om hier te onderzoeken zijn: * Hadden de verzamelde gegevens economische waarde voor een gebruiker of bedrijf? * Heeft de gebruiker hier intellectueel eigendom? * Heeft de organisatie hier intellectueel eigendom? * Als deze rechten bestaan, hoe beschermen we ze dan?

2.4 Gegevensprivacy

Data privacy of informatieprivacy verwijst naar het behoud van de gebruikersprivacy en bescherming van de gebruikersidentiteit met betrekking tot persoonlijk identificeerbare informatie.

Vragen om hier te onderzoeken zijn: * Zijn (persoons)gegevens van gebruikers beveiligd tegen hacks en lekken? * Zijn gebruikersgegevens alleen toegankelijk voor geautoriseerde gebruikers en contexten? * Blijft de anonimiteit van gebruikers behouden wanneer gegevens worden gedeeld of verspreid? * Kan een gebruiker worden geanonimiseerd voor een geanonimiseerde datasets?

2.5 Recht om vergeten te worden

Het Recht om te worden vergeten of Recht tot verwijdering biedt aanvullende bescherming van persoonsgegevens voor gebruikers. Het geeft gebruikers met name het recht om onder specifieke omstandigheden persoonlijke gegevens van zoekopdrachten op internet en andere locaties te verzoeken tot wissen of verwijdering van persoonlijke gegevens, waardoor ze een nieuwe start online kunnen maken zonder dat er eerdere acties tegen hen worden ondernomen.

Vragen om hier te onderzoeken zijn: * Staat het systeem de betrokkenen toe om verwijdering aan te vragen? * Moet het intrekken van de toestemming van de gebruiker leiden tot automatische verwijdering? * Zijn er gegevens verzameld zonder toestemming of op onrechtmatige wijze? * Voldoen we aan de overheidsvoorschriften voor gegevensprivacy?

#### 2.6 Gegevenssetbias

Dataset of Verzamel Bias gaat over het selecteren van een niet-representatieve subset van gegevens voor de ontwikkeling van algoritmen, waardoor potentiële oneerlijkheid in resultaatuitkomsten voor diverse groepen ontstaat. Soorten bias zijn onder meer selectie- , vrijwilligers- en instrumentbias.

Vragen om hier te onderzoeken zijn: * Hebben we een representatieve set van betrokkenen geworven? * Hebben we onze verzamelde of samengestelde dataset getest op verschillende vooroordelen? * Kunnen we ontdekte vooroordelen verminderen of verwijderen?

2.7 Gegevenskwaliteit

Data Quality kijkt naar de validiteit van de samengestelde dataset die is gebruikt om onze algoritmen te ontwikkelen en controleert of functies en records voldoen aan de vereisten voor het niveau van nauwkeurigheid en consistentie nodig voor ons AI-doel.

Vragen om hier te onderzoeken zijn: * Hebben we geldige features vastgelegd voor onze use case? * Zijn gegevens consistent vastgelegd in verschillende gegevensbronnen? * Is de dataset compleet voor diverse omstandigheden of scenario’s? * Wordt informatie nauwkeurig vastgelegd in weerspiegeling van de werkelijkheid?

2.8 Algoritme Eerlijkheid

Algorithm Fairness controleert of het ontwerp van het algoritme systematisch discrimineert tegen specifieke subgroepen van betrokkenen die leiden tot potentiële schade in allocation (waar middelen worden geweigerd of onthouden aan die groep) en quality of service (waar AI voor sommige subgroepen niet zo nauwkeurig is als het is voor anderen).

Vragen om hier te onderzoeken zijn: * Hebben we de modelnauwkeurigheid geëvalueerd voor verschillende subgroepen en condities? * Hebben we het systeem onderzocht op mogelijke schade (bijv. stereotypering)? * Kunnen we gegevens herzien of modellen omscholen om geïdentificeerde schade te beperken?

Verken bronnen zoals AI Fairness checklists voor meer informatie.

2.9 Verkeerde voorstelling van zaken

Vertegenwoordigende data gaat over de vraag of we inzichten uit eerlijk gerapporteerde gegevens op een misleidende manier communiceren om een gewenst verhaal te ondersteunen.

Vragen om hier te onderzoeken zijn: * Rapporteren we onvolledige of onjuiste gegevens? * Visualiseren we gegevens op een manier die leidt tot misleidende conclusies? * Gebruiken we selectieve statistische technieken om uitkomsten te manipuleren? * Zijn er alternatieve verklaringen die tot een andere conclusie kunnen leiden?

2.10 Vrije keuze

De Illusie van Vrije Keuze treedt op wanneer systeem-keuze-architecturen besluitvormingsalgoritmen gebruiken om mensen ertoe aan te zetten een gewenste uitkomst te kiezen terwijl het hen opties en controle lijkt te geven. Deze ‘darkpatterns’ kunnen gebruikers sociale en economische schade toebrengen. Omdat beslissingen van gebruikers van invloed zijn op gedragsprofielen, kunnen deze acties toekomstige keuzes stimuleren die de impact van deze schade kunnen vergroten of uitbreiden.

Vragen om hier te onderzoeken zijn: * Begreep de gebruiker de implicaties van het maken van die keuze? * Was de gebruiker op de hoogte van (alternatieve) keuzes en de voor- en nadelen van elk? * Kan de gebruiker een geautomatiseerde of beïnvloede keuze later terugdraaien? ### 3. Casestudy’s

Om deze ethische uitdagingen in een reële context te plaatsen, helpt het om casestudies te bekijken die de potentiële schade en gevolgen voor individuen en de samenleving benadrukken, wanneer dergelijke ethische schendingen over het hoofd worden gezien.

Hier zijn een paar voorbeelden:

Ethische uitdaging	Casestudy
Informed Consent	1972 - Tuskegee Syphilis Study - Afro-Amerikaanse mannen die deelnamen aan het onderzoek kregen gratis medische zorg beloofd maar werden misleid door onderzoekers die de proefpersonen niet informeerden over hun diagnose of over beschikbaarheid van de behandeling. Veel proefpersonen stierven en ook partners en kinderen werden hierdoor getroffen; de studie duurde 40 jaar.
Gegevensprivacy	2007 - De Netflix-gegevensprijs voorzag onderzoekers van 10 miljoen geanonimiseerde filmranglijsten van 50.000 klanten om aanbevelingsalgoritmen te helpen verbeteren. Onderzoekers waren echter in staat om geanonimiseerde gegevens te correleren met persoonlijk identificeerbare gegevens in externe datasets (bijv. IMDb-commentaren) - waardoor sommige Netflix-abonnees effectief te “de-anonimiseren” waren.
Verzamelingsbias	2013 - De stad Boston ontwikkelde Street Bump, een app waarmee burgers kuilen kunnen melden, waardoor de stad betere weggegevens krijgt om problemen op te sporen en op te lossen. mensen in lagere inkomensgroepen hadden echter minder toegang tot auto’s en telefoons, waardoor hun problemen met de rijbaan onzichtbaar werden in deze app . Ontwikkelaars werkten samen met academici aan gelijke toegang en digitale scheidslijnen kwesties voor eerlijkheid.
Algoritmische eerlijkheid	2018 - De MIT Gender Shades Study evalueerde de nauwkeurigheid van AI-producten voor genderclassificatie, waarbij hiaten in de nauwkeurigheid voor vrouwen en personen van kleur werden blootgelegd. Een Apple Card uit 2019 leek vrouwen minder krediet te bieden dan mannen. Beide illustreerden problemen in algoritmische bias die tot sociaaleconomische schade leiden.
Onjuiste voorstelling van gegevens	2020 - Het Departement van Volksgezondheid van Georgië heeft COVID-19-kaarten vrijgegeven die burgers leek te misleiden over trends in bevestigde gevallen met niet-chronologische volgorde op de x-as. Dit illustreert een verkeerde voorstelling van zaken door middel van visualisatietrucs.
Illusie van vrije keuze	2020 - Leerapp ABCmouse betaalde $ 10 miljoen om een FTC-klacht op te lossen waar ouders aan een abonnementen vastzaten die ze niet konden opzeggen. Dit illustreert duistere patronen in keuzearchitecturen, waarbij gebruikers naar potentieel schadelijke keuzes werden gepusht.
Gegevensprivacy en gebruikersrechten	2021 - Facebook Data Breach gegevens van 530 miljoen gebruikers werden openbaar gemaakt, wat resulteerde in een schikking van $ 5 miljard aan de FTC. De organisatie weigerde echter gebruikers op de hoogte te stellen van de inbreuk die de gebruikersrechten rond gegevenstransparantie en -toegang schendt.

Meer casestudy’s bekijken? Bekijk deze bronnen: * Ethics Unwrapped - ethische dilemma’s in verschillende sectoren. * cursus Data Science Ethics - baanbrekende casestudies onderzocht. * Waar het mis is gegaan - deon checklist met voorbeelden

🚨 Denk eens aan de casestudies die u hebt gezien - heeft u in uw leven een soortgelijke ethische uitdaging meegemaakt of erdoor getroffen? Kun je ten minste één andere casestudy bedenken die een van de ethische uitdagingen illustreert die we in deze sectie hebben besproken?

Toegepaste ethiek

We hebben gesproken over ethische concepten, uitdagingen en casestudy’s in reële contexten. Maar hoe beginnen we met het toepassen van ethische principes en praktijken in onze projecten? En hoe operationaliseren we deze praktijken voor beter bestuur? Laten we enkele echte oplossingen verkennen:

1. Professionele codes

Beroepscodes bieden organisaties één mogelijkheid om leden te “stimuleren” om hun ethische principes en missieverklaring te ondersteunen. Codes zijn morele richtlijnen voor professioneel gedrag en helpen werknemers of leden om beslissingen te nemen die in lijn zijn met de principes van hun organisatie. Ze zijn slechts zo goed als de vrijwillige medewerking van leden; veel organisaties bieden echter extra beloningen en boetes om naleving door leden te motiveren.

Voorbeelden zijn:

Oxford München Ethische code
Data Science Association Gedragscode (gemaakt in 2013)
ACM-code voor ethiek en professioneel gedrag (sinds 1993)

🚨 Behoor jij tot een professionele engineering- of datawetenschapsorganisatie? Verken hun site om te zien of ze een professionele ethische code definiëren. Wat zegt dit over hun ethische principes? Hoe “stimuleren” ze leden om de code te volgen?

2. Ethische checklists

Hoewel professionele richtlijnen ethisch gedrag van beoefenaars definiëren, hebben ze bekende beperkingen bij de handhaving, met name bij grootschalige projecten. In plaats daarvan pleiten veel data Science-experts voor checklists, die principes kunnen verbinden met praktijken in meer deterministische en bruikbare manieren.

Checklists zetten vragen om in “ja/nee”-taken die kunnen worden geoperationaliseerd, zodat ze kunnen worden gevolgd als onderdeel van standaard workflows voor productreleases.

Voorbeelden zijn: * Deon - een checklist voor gegevensethiek voor algemene doeleinden gemaakt op basis van aanbevelingen voor de sector met een opdracht- line tool voor eenvoudige integratie. * Privacy Audit Checklist - biedt algemene richtlijnen voor informatieverwerkingspraktijken vanuit juridische en sociale blootstellingsperspectieven. * AI Fairness Checklist - gemaakt door AI-beoefenaars ter ondersteuning van de invoering en integratie van eerlijkheidscontroles in AI-ontwikkelingscycli . * 22 vragen voor ethiek in data en AI - meer open kader, gestructureerd voor de eerste verkenning van ethische kwesties in ontwerp-, implementatie- en organisatorische contexten.

### 3. Ethische voorschriften

Ethiek gaat over het definiëren van gedeelde waarden en het vrijwillig doen van de juiste dingen. Compliance gaat over het volgen van de wet indien en waar gedefinieerd. Governance omvat in grote lijnen alle manieren waarop organisaties handelen om ethische principes af te dwingen en te voldoen aan gevestigde wetten.

Tegenwoordig neemt governance binnen organisaties twee vormen aan. Ten eerste gaat het om het definiëren van ethische AI-principes en het vaststellen van praktijken om de acceptatie in alle AI-gerelateerde projecten in de organisatie te operationaliseren. Ten tweede gaat het om het naleven van alle door de overheid opgelegde gegevensbeschermingsvoorschriften voor de regio’s waarin het actief is.

Voorbeelden van gegevensbescherming en privacyregelgeving:

1974, US Privacy Act - regelt de verzameling, het gebruik en de openbaarmaking van persoonlijke informatie door de federale overheid.
1996, US Health Insurance Portability & Accountability Act (HIPAA) - beschermt persoonlijke gezondheidsgegevens.
1998, Amerikaanse Children’s Online Privacy Protection Act (COPPA) - beschermt de gegevensprivacy van kinderen onder de 13 jaar.
2018, Algemene Verordening Gegevensbescherming (AVG) - biedt gebruikersrechten, gegevensbescherming en privacy.
2018, California Consumer Privacy Act (CCPA) geeft consumenten meer rechten over hun (persoonlijke) gegevens.
2021, China’s wet ter bescherming van persoonsgegevens zojuist gepasseerd, waardoor een van de sterkste online gegevensprivacyregels ter wereld is gecreëerd.

🚨 De door de Europese Unie gedefinieerde AVG (Algemene Verordening Gegevensbescherming) blijft vandaag een van de meest invloedrijke regels voor gegevensprivacy. Wist u dat het ook 8 gebruikersrechten definieert om de digitale privacy en persoonlijke gegevens van burgers te beschermen? Lees wat deze zijn en waarom ze belangrijk zijn.

4. Ethische cultuur

Onthoud dat er een ongrijpbare kloof blijft tussen compliance (genoeg doen om te voldoen aan “de letter van de wet”) en het aanpakken van systeemproblemen (zoals ossificatie, informatieasymmetrie en oneerlijke verdeling) die de bewapening van AI kunnen versnellen.

Dit laatste vereist samenwerkingsbenaderingen voor het definiëren van ethische culturen die emotionele verbindingen en consistente gedeelde waarden over organisaties in de industrie. Dit vraagt om meer geformaliseerde data-ethiekculturen in organisaties - waardoor iedereen aan het Andon-koord kan trekken (om ethische problemen vroeg in het proces aan de orde te stellen) en het maken van ethische beoordelingen (bijvoorbeeld bij het aannemen) een kerncriterium voor teamvorming in AI-projecten.

Quiz voor na het college 🎯

Review & Zelfstudie

Cursussen en boeken helpen bij het begrijpen van kernconcepten en uitdagingen op het gebied van ethiek, terwijl casestudy’s en hulpmiddelen helpen bij toegepaste ethische praktijken in echte contexten. Hier zijn een paar bronnen om mee te beginnen.

Machine Learning voor beginners - les over eerlijkheid, van Microsoft.
Principles of Responsible AI - gratis leertraject van Microsoft Learn.
Ethiek en gegevenswetenschap - O’Reilly EBook (M. Loukides, H. Mason et. al)
Data Science Ethics - online cursus van de Universiteit van Michigan.
Ethics Unwrapped - casestudy’s van de Universiteit van Texas.

Opdracht

Schrijf een data-ethiek case study

29 KiB Raw Blame History Unescape Escape