Это вторая часть серии статей о ML Bias Сергея Поспелова, руководителя практики ИИ, Exadel. В то время как первая часть была посвящена тому, что такое предвзятость в машинном обучении и где мы можем ее обнаружить, в этой статье обсуждается снижение предвзятости в машинном обучении и укрепление этики для борьбы с предвзятостью в системах искусственного интеллекта. Как избежать предвзятости при сборе данных

Исследователи и инженеры уже применили несколько положительных практик, чтобы уменьшить предвзятость машинного обучения. Мы рассмотрим каждый шаг в конвейере проекта машинного обучения и обсудим, как уменьшить предвзятость машинного обучения на каждом этапе.

Предвзятость при сборе данных

Предвзятость при сборе данных заключается в неправильном получении информации из различных источников на основе предубеждений и необъективных предположений. Это может произойти, когда мы не собираем лучшие функции в правильном контексте для нашего варианта использования или не комбинируем источники данных. Это также может произойти, когда мы собираем точки данных от всего населения, относящиеся к определенным группам или тенденциям. Процесс найма в Amazon — отличный пример ошибок ИИ при сборе данных. Когда они изучили свою систему, они обнаружили, что модель имеет гендерную предвзятость, потому что мужчины больше представлены в специализированных отделах Amazon.

Как избежать предвзятости с помощью предварительной обработки

При сборе данных важно иметь опыт извлечения наиболее значимых информационных переменных. Если вы собираете данные для проекта машинного обучения, вам следует назначить эксперта в предметной области в команду машинного обучения, чтобы помочь им зафиксировать ключевые функции и их характеристики.

Смещение с предварительной обработкой

Предвзятость при предварительной обработке возникает, когда вы не полностью понимаете необработанные данные и не имеете достаточного опыта в интерпретации определенных переменных.

Вы должны выбрать подходящий метод вменения, чтобы смягчить погрешность ML и добавить новые вмененные значения. Затем вы должны просмотреть набор данных и вмененные значения, чтобы решить, отражают ли они фактически наблюдаемые значения. Вы должны следовать другому подходу к вменению, чтобы смягчить предвзятость в прогнозах модели. Однако, независимо от выбранного метода, проверка модели с наборами данных для автономного обучения/тестирования не может отразить реальность онлайн-среды. Поэтому вам необходимо отслеживать производительность модели и сравнивать ее по доменам, чтобы обнаруживать регрессии или отклонения, когда они появляются.

Как избежать предвзятости при проектировании функций

Крайне важно использовать инструменты наблюдения из машинного обучения для получения более глубокой информации, прежде чем отбрасывать выбросы. Эти платформы могут обеспечить лучшее понимание природы выбросов и их значимости.

Предвзятость инженерной мысли

Предвзятость проектирования признаков возникает, когда то, как модели машинного обучения обрабатывают атрибут или набор атрибутов, оказывает пагубное влияние на результаты или прогнозы модели. Эти атрибуты могут включать социальный статус, пол или этнические характеристики.

Наиболее важным шагом является масштабирование признаков для нормализации диапазона значений независимых переменных или характеристик. Чтобы избежать несоответствий и предвзятости, важно стандартизировать данные с помощью разных шкал для измерения одних и тех же характеристик данных. Базовый набор данных обычно включает характеристики с различными величинами, единицами измерения и диапазонами. Вот почему масштабирование функций необходимо для понимания этих функций в одном масштабе.

Чтобы смягчить смещение признаков, вы должны учитывать факторы, которые существенно влияют на смещение результатов модели при применении ко всей совокупности. Они могут включать пол, расу и региональные предпочтения. Таким образом, мы можем устранить такие факторы смещения ML в наборе данных, как гендерное смещение, смещение по категориям и расовое смещение.

Смещение выбора данных

Предвзятость при выборе данных возникает, когда данные, используемые для обучения, недостаточно велики или репрезентативны, что приводит к искажению реальной совокупности. Если вы разделите набор данных на тестовые и обучающие данные, большинство объектов данных будут принадлежать одному типу распределения данных, а другой будет отсутствовать. В результате предвзятая модель предсказывает только те наборы признаков, которые присутствуют в наборе данных.

Как избежать предвзятости при обучении моделей?

Случайная выборка при отборе данных может хорошо подойти, если вам нужно смягчить такие погрешности машинного обучения. Простая случайная выборка — один из наиболее успешных методов, используемых исследователями для минимизации систематической ошибки выборки. Это гарантирует, что все в популяции имеют равные шансы быть выбранными для набора обучающих данных. Другая идея заключается в использовании стратифицированной случайной выборки. Это позволяет определить выборочную совокупность, которая лучше всего представляет общую интересующую совокупность, и гарантирует, что каждая интересующая подгруппа представлена.

Предвзятость обучения модели

Смещение обучения модели отражает несоответствие между фактическими результатами и результатами обученной модели. Некоторые модели подходят для больших наборов данных, поскольку они работают со многими точками данных. Он хранит небольшой набор данных и обеспечивает высокую точность модели на обучающих данных, но не дает отличных результатов на тестовых данных. Например, регрессионные и древовидные модели подходят для небольших наборов данных.

При выборе подходящей модели для набора данных учитывайте важные аспекты, такие как тип данных, проблема, желаемый результат, объем данных и т. д. При выборе модели постарайтесь увидеть реальную цель, которую вы хотите достичь. Модели с ограничениями лучше подходят для интерпретации результатов, поскольку их легче понять. Вы можете сразу увидеть, как один предиктор связан с ответом.

Как избежать предвзятости при оценке модели

При создании модели выберите метод машинного обучения, который лучше всего подходит для вашего набора данных. Кроме того, вы можете сделать выбор модели, выбрав четыре модели, а затем определить лучшую модель с помощью перекрестной проверки. Затем обучите окончательную модель с выбранной моделью в наборе данных и настройте параметры.

Смещение проверки модели

Нелегко предсказать качество модели, измеряя ее производительность на обучающих данных. Анализ чувствительности с использованием обучающих данных часто необъективен, поэтому лучше оценивать производительность модели на тестовых данных. Если вы обучаете модель с набором обучающих данных, у нее также будет несколько точек данных, показывающих неправильное поведение. В результате точность модели может составлять 90 % при 50 % чувствительности или полноте набора данных. При переводе результатов вы можете подумать, что модель обеспечивает надежные результаты. Однако это предположение неверно.

Начните с оценки производительности вашей модели с помощью тестовых данных, чтобы исключить предвзятость среды обучения. При рассмотрении помните, что установленный вами ранее показатель эффективности основан на сценарии использования. В некоторых случаях чувствительность модели важнее ее точности. Вы можете использовать значения матрицы путаницы, если требуется бинарная классификация; для моделей регрессии используйте формулы расстояния, такие как евклидово расстояние и среднеквадратическая ошибка. Затем отрегулируйте показатель производительности, чтобы получить правильную оценку модели.

Обобщение точных статистических данных может быть полезным, если вам нужна здоровая модель и позволяет сразу выявлять регрессии в прогнозах модели. Однако, если вы пытаетесь определить предвзятость ML, суммирование статистики может скрыть области, в которых ваши модели могут учиться не так, как вы предполагали.

Внимательный скачок вперед с машинным обучением

Системы машинного обучения пользуются большой популярностью и обещают предсказывать погоду или выявлять болезни. Тем не менее, в области ОД есть свои проблемы, и наличие предубеждений в ОД — одна из них, которую необходимо тщательно решать. Эти предубеждения и вытекающие из них неточности в данных также могут причинить вред. Поэтому очень важно понимать предубеждения, как их проверять и как предотвращать или устранять их. Применение соответствующих правил моделирования может уменьшить или устранить предвзятость ML, и каждый, кто работает с ML, может помочь создать более этичную отрасль.

Первоначально опубликовано на https://www.spiceworks.com 20 июня 2022 г.