48 KiB

Raw Blame History

Введение в этику данных


Этика в науке о данных - Рисунок [@nitya](https://twitter.com/nitya)

Мы все инфо-граждане, живущие в инфо-мире.

Из тенденций рынка следует, что к 2022 году одна из трёх крупных организаций будет покупать и продавать свои данные на онлайн маркетплейсах и биржах. Как разработчики приложений, мы интегрируем инсайты на основе данных и алгоритмы автоматизации в ежедневную жизнь пользователя более простым и дешёвым способом. Однако по мере распространения ИИ, нам необходимо осознавать потенциальную угрозу использования подобных алгоритмов в качестве оружия в больших масштабах.

Тенденции также показывают, что мы создадим и потребим более 180 зеттабайт данных к 2025 году. Нам, как дата сайентистам - специалистам по данным, открывается беспрецедентный уровень доступа к личным данным. Это означает, что мы сможем составлять поведенческие профили пользователей и влиять на принятие решений, создавая иллюзию свободного выбора и подталкивая пользователей делать то, что нам нужно. Также возникают широкие вопросы о приватности данных и защите пользователей.

В настоящее время, этика данных является необходимым ограждением для специалистов и инженеров по данным, минимизирующим ущерб и непреднамеренные последствия от наших действий на основе данных. На графике цикла популярности Gartner для ИИ современные тренды в цифровой этике, ответственном ИИ и управлении ИИ обозначены как ключевые двигатели мегатрендов демократизации и индустриализации искусственного интеллекта.

Цикл популярности Gartner для ИИ - 2020 год

В данном уроке мы исследуем увлекательную область этики данных, от основных положений и проблем, до реальных примеров и прикладных концепции, таких как управление данными, которые помогают установить этическую культуру в командах и организациях, работающих с данными и ИИ.

Вступительный тест 🎯

Основные определения

Давайте начнём с базовых терминов.

Само слово “этика” происходит от греческого слова “этикос” (и его корня “этос”), означающего характер или моральная природа.

Этика изучает общие ценности и моральные принципы, которые определяют наше поведение в обществе. Этика основывается не на законах, а на широких принятых нормах того, что хорошо, а что плохо. Однако, этические соображения могут влиять на политику компаний и государственное регулирование, которое создает больше стимулов для соблюдения этических норм.

Этика данных - это новая ветвь этики, которая “изучает и оценивает моральные вопросы связанные с данными, алгоритмами и соответствующими практиками”. Упомянутые здесь вопросы “данных” сосредоточены вокруг действий генерации, записи, курирования, обработки, распространения, предоставление доступа и использования. Вопросы “алгоритмов” сосредоточены вокруг ИИ, агентов, машинного обучения и роботов. Вопросы “практик” сфокусированы на темах ответственных инноваций, программирования, хакинга и этичного исходного кода.

Прикладная этика - это практическое применение моральных соображений. Это процесс активного исследования этических проблем в контексте действий, товаров и процессов реального мира, и принятия корректирующих мер по удержанию их в соответствии нашим принятым этическим ценностям.

Этическая культура - раздел об использовании прикладной этики для того, чтобы убедиться, что наши этические принципы и порядки приняты полномасштабно в рамках всей организации и действуют постоянно. Успешные этические культуры определяют общеорганизационные этические принципы, обеспечивают ощутимые стимулы для их соблюдения и укрепляют этические нормы, поощряя желаемое поведение на каждом уровне организации.

Этические концепции

В данном разделе мы обсудим такие понятия как общие ценности (принципы) и этические вызовы (проблемы) в этике данных, а также исследуем реальные примеры, которые помогут Вам понять эти концепции в реальном мире.

1. Принципы этики

Каждая стратегия в этике данных начинается с определения этических принципов - “общих ценностей”, которые описывают приемлемое поведение и регламентируют соответствующие действия в проектах, связанных с данными и ИИ. Вы можете определить их на индивидуальном уровне или на уровне команды. Однако, большинство крупных организаций выделяют их как миссию по созданию этичного ИИ или набора правил, который определён на уровне компании и которому подчиняются все без исключения.

Пример: Формулировка миссии об ответственном ИИ компании Майкрософт звучит так: “Мы преданы идее продвижения ИИ на основе этических принципов, которые ставят людей во главу угла”. Данный лозунг определяет 6 этических принципов, описанных далее.

Давайте кратко рассмотрим эти принципы. Прозрачность и Ответственность являются основными, а остальные строятся поверх, поэтому начнем с главных:

Принцип ответственности накладывает ответственность на активных пользователей за использование данных и ИИ и требует согласия с данными этическими принципами.
Принцип прозрачности позволяет убедиться, что действия с данными и ИИ понимаемы (осознаваемы) пользователями, разъясняя, что кроется за действиями и их последствия.
Принцип справедливости фокусируется на равном восприятии искусственным интеллектом всех людей и обращает внимание на системную и скрытую социально-техническую предвзятость в данных и информационных системах.
Принцип надёжности и сохранности обеспечивает постоянное соответствие поведения ИИ заранее определённым ценностям, минимизируя потенциальный ущерб или неумышленные последствия.
Принцип приватности и безопасности говорит о необходимости понимания происхождения данных и обеспечивает приватность данных и их защиту для пользователей.
Принцип инклюзивности гарантирует создание решений на основе ИИ с целью адаптировать их к нуждам широкого круга людей с различными возможностями.

🚨 Подумайте о том, какими могут быть формулировки миссий в этике данных. Познакомьтесь с подходами этичного ИИ в других организациях: IBM, Google и Facebook. Какие общие ценности являются схожими? Как эти принципы связаны с продуктами и отраслями этих компаний?

2. Проблемы этики

Как только мы определили этические принципы, следующим шагом становится оценить наши действия с данными и ИИ с точки зрения того, как они соотносятся с принятыми общими ценностями. Подумайте над Вашими действиями в разрезе двух категорий: сбора данных и разработка алгоритма.

При сборе данных, список действий наверняка будет включать в себя персональные данные или персональные идентифицирующие данные для установления личностей. Они состоят из различных неперсональных данных, которые в совокупности определяются как персональные. Этические вызовы здесь могут относиться к приватности данных, владению данными и связанным с ними вопросам информированного согласия, и прав на интеллектуальную собственность пользователей.

При разработке алгоритма, действия включают в себя сбор и обработку датасетов и последующее использование их для тренировки и развёртывания модели данных, способной выдавать прогнозы или автоматизировать принятие решений в реальном мире. Этические вызовы возникают из-за несбалансированного датасета, качества данных, несправедливости модели и искажения фактов в алгоритмах, включая некоторые системные по своей природе вопросы.

В обоих случаях, этические проблемы подсвечивают области, в которых наши действия могут идти в разрез с нашими общими ценностями. Для того чтобы распознать, смягчить, сократить или устранить конфликты, нам необходимо задать моральные “да/нет” вопросы, связанные с нашими действиями, а затем скорректировать наши действия при необходимости. Давайте взглянем на некоторые этические вызовы и моральные вопросы, которые они поднимают:

2.1 Право собственности на данные

Сбор данных часто включает в себя сбор персональных данных, которые могут идентифицировать действующих лиц. Право собственности на данные занимается вопросами контроля и прав пользователя в области создания, обработки и распространения данных.

Моральные вопросы, которые мы должны задать себе здесь: * Кто владеет данными (пользователь или организация)? * Какие права имеют действующие лица, имеющие отношение к данным? (напр., доступ, стирание, перенос) * Какие права имеет организация? (напр., редактирование злонамеренных пользовательских отзывов)

2.2 Информированное согласие

Информированное согласие определяет согласие пользователя на действия (например, сбор данных) с полным пониманием всех фактов, включая цель, потенциальные риски и альтернативы.

Вопросы для дискуссии: * Предоставил ли пользователь (действующее лицо) соглашение на сбор и использование данных? * Осознал ли пользователь цель сбора данных? * Осознал ли пользователь возможные риски от использования данных?

2.3 Интеллектуальная собственность

Интеллектуальная собственность относится к нематериальным творениям, произведенным по инициативе человека, которые могут иметь экономическую ценность для физических или юридических лиц.

Вопросы для дискуссии: * Имеют ли собранные данные экономическую ценность для пользователя или компании? * Обладает ли пользователь интеллектуальной собственностью в данном случае? * Обладает ли компания интеллектуальной собственностью в данном случае? * Если права на собственность существуют, как мы защищаем их?

2.4 Приватность данных

Приватность данных или информационная приватность относится к сохранению приватности пользователя и защиты его личности относительно пользовательской идентифицирующей информации.

Вопросы для дискуссии: * Защищены ли пользовательские (персональные) данные от взломов и утечек? * Доступны ли пользовательские данные только уполномоченным пользователям и окружениям? * Сохраняется ли анонимность пользователя при передаче и распространении данных? * Может ли пользователь быть идентифицирован из анонимизированного датасета?

2.5 Право на забвение

Право на забвение или Право на стирание обеспечивает дополнительную защиту данных пользователя. В особенности, данное право предоставляет пользователям возможность удаления персональных данных из поисковых систем сети Интернет и других мест, позволяя, при определённых обстоятельствах, начать онлайн-историю с чистого листа без учёта предыдущих событий.

Вопросы для дискуссии: * Позволяет ли рассматриваемая система действующим лицам запрашивать удаление данных? * Должен ли отзыв пользовательского соглашения вызывать автоматическое стирание данных? * Были ли данные собраны без согласия или незаконными способами? * Действуем ли мы согласно государственному регулированию в сфере приватности данных?

2.6 Несбалансированный датасет

Проблема несбалансированного датасета или коллекции данных появляется при использовании нерепрезентативной выборки для разработки алгоритма, создании потенциальной несправедливости в результатах модели для различных групп. Типы искажений включают в себя систематические ошибки, ошибки наблюдателя, погрешности инструментов.

Вопросы для дискуссии: * Имеем ли мы дело с репрезентативным набором действующих лиц? * Был ли протестирован собранный или созданный датасет на различные искажения? * Можем ли мы уменьшить или избавиться от обнаруженных искажений?

2.7 Качество данных

Качество данных отображает пригодность собранного датасета, используемого для разработки нашего алгоритма, проверяет, удовлетворяют ли признаки и записи требованиям качества и согласованности, необходимым для целей нашего ИИ.

Вопросы для дискуссии: * Собрали ли мы пригодные признаки для решения нашей задачи? * Собраны ли данные согласованно с различных источников? * Является ли датасет полным с точки зрения различных условий и сценариев? * Достоверно ли отображает собранная информация реальность?

2.8 Справедливость алгоритма

Справедливость алгоритма указывает, дискриминирует ли созданный алгоритм отдельные группы действующих лиц и ведет ли это к потенциальному ущербу в распределении (когда ресурсы недоступны или, наоборот, удерживаются отдельной группой) и в качестве услуг (когда ИИ недостаточно точен для некоторых групп в отличие от других).

Вопросы для дискуссии: * Правильно ли мы оценили точность модели для различных групп и условий? * Внимательно ли мы изучили созданную систему на предмет потенциального ущерба (например, на стереотипизацию)? * Можем ли мы перепроверить данные или перетренировать модель, чтобы сократить выявленный ущерб?

Изучите материалы, подобные контрольному списку справедливости ИИ, чтобы узнать больше.

2.9 Искажение фактов

Искажение фактов в данных указывает, вводим ли мы в заблуждение инсайтами, чтобы поддержать желаемую точку зрения, несмотря на достоверные собранные данные.

Вопросы для дискуссии: * Предоставляем ли мы неполные или неточные данные? * Визуализируем ли мы данные таким образом, который ведет к ошибочным выводам? * Используем ли мы статистические методы выборочно, чтобы манипулировать результатами? * Существуют ли альтернативные суждения, которые могут привести к другим выводам?

2.10 Свободный выбор

Иллюзия свободного выбора появляется, когда система, “проектирующая выбор”, использует алгоритмы принятия решений, чтобы подтолкнуть к предподчтительным действиям, и в то же время обманчиво даёт выбор и контроль над ситуацией. Эти нечестные уловки могут нанести социальный и экономический вред пользователям. Поскольку решения пользователей влияют на поведенческие паттерны, подобные действия могут привести к последующим принятиям решений, которые приумножат или продлят действие нанесённого ущерба.

Вопросы для дискуссии: * Понимает ли пользователь последствия принятия того или иного решения? * Был ли пользователь осведомлён о (альтернативном) выборе и плюсах и минусах каждого исхода? * Может ли пользователь изменить автоматический выбор или выбор, сделанный под влиянием, позднее?

3. Случаи из реальной практики

В решении упомянутых этических вызовов в контексте реального мира нам поможет взглянуть на случаи, когда потенциальные угрозы и последствия для личности и общества наиболее выражены, когда этические нарушения упущены из виду.

Вот некоторые примеры:

Этический вызов	Реальный пример
Информированное согласие	1972 год - Исследование сифилиса в Таскиги - Принявшим участие в исследовании афроамериканцам была обещана бесплатная медицинская помощь, однако их обманули исследователи, не предоставив информацию о диагнозе или доступности лекарств. Многие участники умерли, заразив партнёров или детей. Исследование длилось 40 лет.
Приватность данных	2007 год - В соревновании от компании Netflix участникам предложили 10 миллионов анонимизированных оценок фильмов от 50 тысяч клиентов для улучшения алгоритма рекомендаций. Однако, участники оказались способны сопоставить анонимизированные данные с персональными данными из внешнего источника данных (например, комментарии на сайте IMDb) и успешно де-анонимизировать некоторых подписчиков Netflix.
Систематическая ошибка	2013 год - городские власти города Бостона разработали Street Bump, приложение, позволяющее гражданам сообщать о дорожных выбоинах, предоставляя властям более качественные данные для поиска и ремонта. Однако, люди из группы с низким доходом имели ограниченный доступ к машинам и смартфонам, и их дорожные проблемы не отображались в этом приложении. Разработчики совместно с учеными исправили проблемы равного доступа и цифрового неравенства для большей справедливости.
Справедливость алгоритма	2018 год - В исследовании гендерных оттенков в университете MIT при оценке точности ИИ для задачи гендерной классификации товаров были обнаружены пробелы в точности для женщин и для “цветных” людей. В 2019 году кредитная программа компании Apple предлагала меньший кредитный лимит женщинам по сравнению с мужчинами. Оба случая иллюстрируют предвзятость, ведущую к социально-экономическому ущербу.
Искажение фактов	2020 год - Департамент штата Джорджия выпустил графики заболеваемости COVID-19, которые ввели в заблуждение граждан насчёт трендов подтверждённых случаев своей хронологической неупорядоченностью. Данный пример показывает искажение фактов при помощи визуализации.
Иллюзия свободного выбора	2020 год - Разработчики обучающего приложения ABCmouse заплатили 10 миллионов долларов для урегулирования жалобы Федеральной торговой комиссии, в которой родители были вынуждены платить за подписку, которую они не могли отменить. Данный случай иллюстрирует тёмную сторону систем с наличием выбора, в которых пользователей подталкивают к потенциально вредному выбору.
Приватность данных и права пользователя	2021 год - Утечка данных в компании Facebook содержала данные 530 миллионов пользователей и повлекла штраф в 5 миллиардов долларов от Федеральной торговой комиссии. Компания отказалась предупреждать пользователей об утечке данных, нарушив тем самым права пользователей на прозрачность и приватный доступ.

Хотите узнать больше случаев из реальной жизни? Познакомьтесь с данными ресурсами: * Этика без прикрас - этические дилеммы в различных отраслях. * Курс этики в науке о данных - рассматриваются ключевые примеры из реальной практики. * Место, где что-то пошло не так - список примеров от Deon.

🚨 Вспомните реальные случаи из своей жизни. Сталкивались ли Вы сами или пострадали от подобных этических вызовов? Можете ли вы вспомнить по крайней мере ещё один случай, который иллюстрирует один из этических вызовов, которые мы обсудили в данном разделе?

Прикладная этика

Мы рассмотрели этические концепции, вызовы и случаи из реальной жизни. Но как мы можем начать применять этические принципы в наших проектах? И как мы должны оперировать данными принципами для лучшего управления? Давайте рассмотрим некоторые решения проблем из реальной практики.

1. Профессиональные нормы поведения

Профессиональные нормы поведения в организации являются способом стимулирования участников для поддержания её этических принципов и целей. Зафиксированные нормы являются моральным ориентиром для поведения на работе, помощи сотрудникам в принятии решений, которые соответствуют принципам их организации. Они имеют силу только при добровольном согласии участников, однако многие организации предлагают дополнительные вознаграждения и штрафы, чтобы мотивировать участников на согласие.

Примеры:

Нормы этики в университете Оксфорда в городе Мюнхен
Нормы поведения в Ассоциации науки о данных (написаны в 2013 году)
Этические и профессиональные нормы в Ассоциации вычислительной техники (действуют с 1993 года)

🚨 Имеете ли Вы отношение к организациям, занимающимся разработкой ПО и наукой о данных? Исследуйте их сайты на наличие зафиксированных норм этики. Какие этические принципы там определены? Как они “стимулируют” участников следовать принятым нормам?

2. Списки этических норм

В то время как нормы профессионального поведения определяют необходимое этичное поведение участников, они также принуждают к соблюдению установленных ограничений, особенно в крупных проектах. Вместо этого, многие эксперты в науке о данных поддерживают использование списков, которые соединяют принципы и реальные практики более определённым и действенным методом.

Подобные списки конвертируют размытые вопросы в “да/нет” пункты, которые могут быть введены в действие и которые могут отслеживаться как часть стандартного процесса выпуска продукта.

Примеры: * Deon - список этических пунктов общего назначения, созданный по промышленным рекомендациям с поддержкой интерфейса командной строки для удобной интеграции. * Список аудита приватности содержит общие рекомендации для обработки информации с точки зрения правового и социального воздействия. * Чеклист справедливого ИИ создан разработчиками систем ИИ для поддержки интеграции проверок справедливости в цикл разработки продуктов с ИИ. * 22 вопросв о этике в данных и ИИ - более открытый список, ориентированный на первоначальное обнаружение этических проблем в контексте структуры, реализации и организации.

3. Регулирование в области этики

Этика определяет общие ценности и правильные поступки на добровольной основе. Соглашение в свою очередь принуждает следовать закону, если он определён, там, где он определён. Руководство покрывает широкий спектр способов, которыми организации пользуются для продвижения этических принципов и согласия с установленными законами.

На сегодняшний день, руководство по этике принимает две формы внутри организации. Во-первых, оно определяет принципы этичного ИИ и устанавливает правила его внедрения для всех проектов организации, связанных с ИИ. Во-вторых, оно действует в соглашении с государственным регулированием в области защиты данных в регионах представительства организации.

Примеры государственного регулирования в области защиты данных и конфиденциальности:

1974 год, Закон США о конфиденциальности, регулирующий сбор, использование и раскрытие персональной информации на государственном уровне.
1996 год, Закон США о переносимости и подотчетности медицинского страхования (HIPAA), защищающий персональные данные в сфере здравоохранения.
1998 год, Закон США о защите конфиденциальности детей в Интернете (COPPA), защищающий конфиденциальность данных детей младше 13 лет.
2018 год, Общие правила защиты данных (GDPR), обеспечивающий пользовательские права, защиту данных и конфиденциальность.
2018, Закон Калифорнии о конфиденциальности потребителей (CCPA), предоставляющий потребителям больше прав в области своих (персональных) данных.
2021, китайский Закон о защите личной информации, принятый в недавном времени, применяющий одно из самых строгих в мире регулирований в области конфиденциальности данных в сети Интернет.

🚨 Принятые Европейским Союзом Общие правила защиты данных (GDPR) остаются на сегодняшний день наиболее влиятельным регулированием в области приватности данных. Знали ли Вы, что они также определяют 8 прав пользователей в области защиты конфиденциальности и персональных данных граждан? Узнайте подробнее, что они из себя представляют и почему они имеют значение.

4. Этичная культура

Отметим, что остаётся неосязаемый промежуток между соглашением (делать достаточно, чтобы оставаться “в рамках закона”) и системными проблемами (такими, как потеря гибкости, информационная несимметричность и несправедливое распределение), который может ускорить применение ИИ в качестве оружия.

Решение этой проблемы кроется в совместных подходах к определению этичных культур, которые выстраивают эмоциональные связи и постоянные общие ценности во всех организациях отрасли. Это требует более глубокой формализации культуры в области этики данных в организациях, позволяющей любому потянуть за ниточки (чтобы поднять вопрос этики на ранней стадии) и провести оценку этичности (например, при найме на работу) основных критериев формирования команд в проектах с ИИ.

Проверочный тест 🎯

Дополнительные источники

Курсы и книги помогут Вам понять основные этические принципы и вызовы, а примеры из реальной практики помогут с прикладными вопросами этики в контексте реального мира. Вот некоторые ресурсы, с которых можно начать:

Машинное обучение для начинающих (на англ.) - курс о справедливости от компании Microsoft.
Принципы ответственного ИИ - бесплатный курс от Microsoft Learn.
Этика в науке о данных - электронная книга издательства O’Reilly (M. Loukides, H. Mason и др.)
Этика науки о данных - онлайн курс от Мичиганского университета.
Этика без прикрас - случаи из реальной практики от Техасского университета.

Домашнее задание

Опишите реальный случай из этики в науке о данных

48 KiB Raw Blame History Unescape Escape