Можно ли обеспечить высокий уровень безопасности машинного обучения без ущерба для производительности?

Современная медицина дрейфует в сторону рутинного использования молекулярных фенотипов пациентов в диагностике и лечении. Эти «омические» технологии проникают в различные области, начиная от широко распространенных заболеваний, таких как лейкемия и туберкулез, и заканчивая новыми угрозами, такими как COVID-19.

Технологии Omics генерируют огромные объемы данных для каждого пациента, которые обеспечивают бесценный ресурс для приложений искусственного интеллекта и больших данных. Однако существует неотъемлемое препятствие, связанное с доступностью данных, которое препятствует разработке крупномасштабных решений, основанных на данных, как в исследованиях, так и в здравоохранении.

Действительно, данные пациентов не только конфиденциальны, но и часто сильно децентрализованы. Они хранятся во множестве местных клинических баз данных или в нескольких специализированных региональных или национальных репозиториях. Законодательство о защите и обмене данными может быть чрезвычайно сложным, громоздким и негибким, поэтому специалистам по данным приходится иметь дело с этой неоптимальной системой.

Наиболее очевидным способом преодоления проблемы фрагментации данных является использование глобальных централизованных баз данных. Однако такое решение не только ставит вопрос о надежности и безопасности, но и дублирует данные между таким чудовищным глобальным хранилищем и несколькими локальными хранилищами (привет всему репертуару проблем с синхронизацией) и увеличивает трафик данных между ними.

Глобальные хранилища медицинской информации также вряд ли будут приветствовать передачу данных от них, поэтому все обучение ИИ или интеллектуальный анализ данных должны происходить на доверенных и авторизованных серверах, что снова открывает дверь для бесконечной бюрократии и правил.

Несмотря на все эти недостатки, централизованное хранение и обработка позволяют наиболее просто и эффективно обучать ИИ. Все данные и параметры модели совмещены и централизованы, что обеспечивает максимальную скорость и эффективность обучения.

Другая крайность — локальное хранение данных и локальное обучение, когда отдельные поставщики данных полностью изолированы, а несколько моделей ИИ обучаются на достаточно небольших наборах данных. Это решает все проблемы с безопасностью обмена данными, но делает модели ИИ гораздо менее мощными и удобными в использовании.

В последние годы появилась концепция федеративного обучения, которая взяла лучшее из обеих этих крайностей. Идея состоит в том, чтобы сохранить данные локальными и доступными только для чтения, но централизовать параметры модели.

Федеративное обучение очень успешно работает во многих практических приложениях, но по-прежнему требует базовой инфраструктуры и значительного сетевого трафика. В случаях очень больших пространств параметров и размеров данных центральный сервер сам должен стать массивно параллельной (и часто децентрализованной) вычислительной инфраструктурой. Итак, налицо очевидная избыточность вычислительных ресурсов — небольшие объемы данных на узлах хранения можно было бы легко обработать на месте, но вместо этого они сначала передаются на центральный сервер, а затем снова распределяются по выделенным вычислительным узлам.

В недавней статье, опубликованной в Nature, была представлена ​​интересная концепция роевого обучения (SL).

В этом случае выделенный центральный сервер отсутствует, а параметры модели распределяются по сети между локальными обучающими узлами. Каждый узел строит модели независимо от своих личных данных.

Одно из самых больших нововведений заключается в том, что узлы взаимодействуют с помощью защищенной технологии блокчейна. Каждый участник предварительно авторизован для выполнения транзакций, и каждый новый узел добавляется смарт-контрактом блокчейна, что обеспечивает максимальную безопасность. Обмен параметрами модели осуществляется по протоколу TLS с дополнительным шифрованием весов.

Каждый узел получает модель в ее текущем состоянии и выполняет собственное обучение локальной модели до тех пор, пока не будут выполнены условия синхронизации. Затем параметры модели обмениваются между режимами и объединяются для создания новой модели консенсуса с обновленными параметрами. После этого начинается новый виток обучения.

Аналогично федеративному обучению данные никогда не передаются за пределы узлов. Кроме того, среда обучения хранится в безопасном доверенном контейнере и изолирована от данных. Данные остаются строго доступными только для чтения, и наружу всегда передаются только веса модели.

Авторы применили методологию SL к трем случаям:

  1. Прогнозирование лейкозов на основе транскриптомов мононуклеарных клеток крови более чем 12 000 человек.
  2. Идентификация больных туберкулезом по транскриптомам крови или рентгенограммам грудной клетки.
  3. Идентификация COVID-19 по иммунному ответу, видимому в транскриптомах крови.

В каждом случае SL систематически сравнивали с централизованным обучением и локальным обучением. Во всех сценариях SL показывает производительность, сравнимую или даже лучшую, чем централизованное обучение, и значительно превосходит локальное обучение.

Нет сомнений, что безопасное децентрализованное машинное обучение в ближайшем будущем станет все более популярным для широкого круга задач. Большие данные в клинической медицине — не единственное применение этой техники. Он также может быть полезен в крупномасштабных многоцентровых клинических испытаниях и совместных усилиях по поиску лекарств.

Receptor.AI идет в ногу со временем. Мы разрабатываем наши решения по поиску лекарств с помощью ИИ, используя весь спектр доступных методов децентрализованного машинного обучения, включая федеративное обучение и элементы парадигмы роевого обучения. Мы следим за последними разработками в этой области, чтобы сделать наш продукт безопасным, надежным, надежным и совместимым с самыми строгими требованиями процессов исследований и разработок в фармацевтике.