Swarm Learning: децентрализация доведена до крайности

Можно ли обеспечить высокий уровень безопасности машинного обучения без ущерба для производительности?

Современная медицина дрейфует в сторону рутинного использования молекулярных фенотипов пациентов в диагностике и лечении. Эти «омические» технологии проникают в различные области, начиная от широко распространенных заболеваний, таких как лейкемия и туберкулез, и заканчивая новыми угрозами, такими как COVID-19.

Технологии Omics генерируют огромные объемы данных для каждого пациента, которые обеспечивают бесценный ресурс для приложений искусственного интеллекта и больших данных. Однако существует неотъемлемое препятствие, связанное с доступностью данных, которое препятствует разработке крупномасштабных решений, основанных на данных, как в исследованиях, так и в здравоохранении.

Действительно, данные пациентов не только конфиденциальны, но и часто сильно децентрализованы. Они хранятся во множестве местных клинических баз данных или в нескольких специализированных региональных или национальных репозиториях. Законодательство о защите и обмене данными может быть чрезвычайно сложным, громоздким и негибким, поэтому специалистам по данным приходится иметь дело с этой неоптимальной системой.

Наиболее очевидным способом преодоления проблемы фрагментации данных является использование глобальных централизованных баз данных. Однако такое решение не только ставит вопрос о надежности и безопасности, но и дублирует данные между таким чудовищным глобальным хранилищем и несколькими локальными хранилищами (привет всему репертуару проблем с синхронизацией) и увеличивает трафик данных между ними.

Глобальные хранилища медицинской информации также вряд ли будут приветствовать передачу данных от них, поэтому все обучение ИИ или интеллектуальный анализ данных должны происходить на доверенных и авторизованных серверах, что снова открывает дверь для бесконечной бюрократии и правил.

Несмотря на все эти недостатки, централизованное хранение и обработка позволяют наиболее просто и эффективно обучать ИИ. Все данные и параметры модели совмещены и централизованы, что обеспечивает максимальную скорость и эффективность обучения.

Другая крайность — локальное хранение данных и локальное обучение, когда отдельные поставщики данных полностью изолированы, а несколько моделей ИИ обучаются на достаточно небольших наборах данных. Это решает все проблемы с безопасностью обмена данными, но делает модели ИИ гораздо менее мощными и удобными в использовании.

В последние годы появилась концепция федеративного обучения, которая взяла лучшее из обеих этих крайностей. Идея состоит в том, чтобы сохранить данные локальными и доступными только для чтения, но централизовать параметры модели.

Федеративное обучение очень успешно работает во многих практических приложениях, но по-прежнему требует базовой инфраструктуры и значительного сетевого трафика. В случаях очень больших пространств параметров и размеров данных центральный сервер сам должен стать массивно параллельной (и часто децентрализованной) вычислительной инфраструктурой. Итак, налицо очевидная избыточность вычислительных ресурсов — небольшие объемы данных на узлах хранения можно было бы легко обработать на месте, но вместо этого они сначала передаются на центральный сервер, а затем снова распределяются по выделенным вычислительным узлам.

В недавней статье, опубликованной в Nature, была представлена интересная концепция роевого обучения (SL).

В этом случае выделенный центральный сервер отсутствует, а параметры модели распределяются по сети между локальными обучающими узлами. Каждый узел строит модели независимо от своих личных данных.

Одно из самых больших нововведений заключается в том, что узлы взаимодействуют с помощью защищенной технологии блокчейна. Каждый участник предварительно авторизован для выполнения транзакций, и каждый новый узел добавляется смарт-контрактом блокчейна, что обеспечивает максимальную безопасность. Обмен параметрами модели осуществляется по протоколу TLS с дополнительным шифрованием весов.

Каждый узел получает модель в ее текущем состоянии и выполняет собственное обучение локальной модели до тех пор, пока не будут выполнены условия синхронизации. Затем параметры модели обмениваются между режимами и объединяются для создания новой модели консенсуса с обновленными параметрами. После этого начинается новый виток обучения.

Аналогично федеративному обучению данные никогда не передаются за пределы узлов. Кроме того, среда обучения хранится в безопасном доверенном контейнере и изолирована от данных. Данные остаются строго доступными только для чтения, и наружу всегда передаются только веса модели.

Авторы применили методологию SL к трем случаям:

Прогнозирование лейкозов на основе транскриптомов мононуклеарных клеток крови более чем 12 000 человек.
Идентификация больных туберкулезом по транскриптомам крови или рентгенограммам грудной клетки.
Идентификация COVID-19 по иммунному ответу, видимому в транскриптомах крови.

В каждом случае SL систематически сравнивали с централизованным обучением и локальным обучением. Во всех сценариях SL показывает производительность, сравнимую или даже лучшую, чем централизованное обучение, и значительно превосходит локальное обучение.

Нет сомнений, что безопасное децентрализованное машинное обучение в ближайшем будущем станет все более популярным для широкого круга задач. Большие данные в клинической медицине — не единственное применение этой техники. Он также может быть полезен в крупномасштабных многоцентровых клинических испытаниях и совместных усилиях по поиску лекарств.

Receptor.AI идет в ногу со временем. Мы разрабатываем наши решения по поиску лекарств с помощью ИИ, используя весь спектр доступных методов децентрализованного машинного обучения, включая федеративное обучение и элементы парадигмы роевого обучения. Мы следим за последними разработками в этой области, чтобы сделать наш продукт безопасным, надежным, надежным и совместимым с самыми строгими требованиями процессов исследований и разработок в фармацевтике.

материалы по теме:

Новые материалы

Журналы Py № 2: Если, Элиф, Иначе?

У меня такое чувство, будто я давно ничего не писал, хотя прошло два дня с тех пор, как я опубликовал свою первую историю. В любом случае, сегодня произошло много всего, так что приступим...

Работа в Реакции

Я изучаю React в Bloc прямо сейчас. До сих пор я изо всех сил пытался понять темы. Тем не менее, я только что закончил проблему, над которой некоторое время размышлял, и хочу записать свой..

Нужен ли банкам искусственный интеллект, чтобы кардинально изменить свою работу?

Почему необходимо использовать искусственный интеллект в банковской сфере? Существенное использование многочисленных инноваций ИИ, таких как машинное обучение , глубокое обучение и..

Какую последнюю статью вы считаете стоящей поделиться?

Я люблю читать качественные статьи. Не стесняйтесь делиться своей работой.

Преобразование CoreML, позволяющее использовать Fast-Neural-Style-Transfer на iOS и MacOS.

Как использовать Fast-Neural-Style-Transfer на iOS Преобразованная модель: GitHub — john-rocky/CoreML-Models: Преобразованный зоопарк моделей CoreML...

ИИ в правоохранительных органах: мощный инструмент с двойной природой

Искусственный интеллект (ИИ) революционизирует правоохранительную деятельность, предлагая инновационные тактики расследования, повышая достоверность доказательств и оптимизируя процессы. Тем..

Autoencoder Average Distance — классический способ, используемый внутри Microsoft для выявления сходства…

Среднее расстояние автоэнкодера (AAD) использует более простой подход для определения расстояния между двумя наборами данных. Нейронный автоэнкодер может преобразовать любой элемент данных в..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Tech Java Development Front End Development Algorithms Typescript Tutorial HTML Computer Science Data Learning ChatGPT Programming Languages CSS Javascript Tips Statistics NLP Business Computer Vision Neural Networks Learning To Code Code Education React Native Angular