Среднее расстояние автоэнкодера (AAD) использует более простой подход для определения расстояния между двумя наборами данных. Нейронный автоэнкодер может преобразовать любой элемент данных в вектор числовых значений. Идея метрики расстояния AAD состоит в том, чтобы преобразовать два исходных набора данных в строго числовые векторы с одинаковым количеством значений, а затем вычислить разницу между средним значением векторов в каждом наборе данных.

Этот метод вычисления разницы наборов данных был разработан Дж. Маккефри и С. Чена и использовался внутри компании Microsoft.

Введение

Область машинного обучения часто характеризуется тем, что данные, доступные из интересующего приложения, обычно скудны. Другими словами, значительный объем данных доступен для реализации общего назначения, в отличие от ограниченного объема данных, доступных для специальных исследований. По этой причине существует огромный интерес к разработке методов, которые могут комбинировать, адаптировать и передавать знания между наборами данных и областями. Им посвящены целые области исследований, включая адаптацию предметной области, трансферное обучение и метаобучение. Они также составляют некоторые из активных областей исследований в области машинного обучения.

Понятие расстояния

Базовым понятием, лежащим в основе всех этих областей, является расстояние (или сходство) между наборами данных. Чтобы определить сходство между двумя заданными наборами данных, мы стремимся выяснить расстояние между ними. Например, передача знаний между схожими областями интуитивно должна быть проще, чем между отдаленными. Аналогичным образом, учитывая выбор различных наборов данных для обучения модели, было бы естественным выбрать тот, который наиболее близок к интересующей задаче. В конечном итоге это приводит к увеличению объема данных, необходимых для конкретной задачи.

Однако это понятие по-прежнему вызывает определенные проблемы. Например, несмотря на свою полезность и простоту, понятие расстояния между наборами данных является неуловимым, и его эффективная и принципиальная количественная оценка остается в значительной степени открытой проблемой. Для этого необходимо решить различные проблемы, которые обычно возникают именно в условиях, для которых это понятие было бы наиболее полезным, таких как упомянутые выше. Например, в условиях машинного обучения с учителем наборы данных состоят как из функций, так и из меток, и хотя определение расстояния между первыми часто — хотя и не всегда — тривиально, сделать это для меток далеко не так, особенно если метка устанавливает в двух задачах не идентичны (как это часто бывает с готовыми предварительно обученными моделями).

Знание расстояния между двумя наборами данных может быть полезным как минимум по двум причинам. Во-первых, расстояние между наборами данных можно использовать для действий по переносу обучения, таких как использование модели прогнозирования, обученной на одном наборе данных, для быстрого обучения второго набора данных. Во-вторых, расстояние между наборами данных может быть полезно для увеличения обучающих данных — создания дополнительных синтетических обучающих данных, которые можно использовать для построения более точной модели прогнозирования.

Способы определения расстояния набора данных

Существует несколько способов выяснить сходство между двумя заданными наборами данных. Они включают в себя хороший уровень математических вычислений и опираются на более высокие математические понятия. Поэтому часто эти подходы кажутся эвристическими и сложными. Подходы к трансферному обучению, направленные на количественную оценку сходства наборов данных, включают различные способы. Обычный подход заключается в сравнении наборов данных с использованием прокси. Большинству этих подходов не хватает гарантий, они сильно зависят от используемой зондовой модели и требуют обучения модели до завершения (например, для нахождения оптимальных параметров) на каждом сравниваемом наборе данных.

Сходство наборов данных можно измерить с помощью нескольких доступных методов. Различные понятия подобия между распределениями данных были предложены в контексте адаптации предметной области. К ним относятся использование расстояния несоответствия, расстояния набора данных через чувствительность параметра, теории оптимального транспорта, состязательной проверки и Поиск показателей расстояния между двумя наборами данных. Все эти подходы по-своему различны, и каждый из них обладает своими достоинствами и недостатками.

Среднее расстояние автоэнкодера (AAD)

Хотя другие методы включают высшую математику и часто сложны как в реализации, так и в понимании, Autoencoder Average Distance (AAD) использует относительно простой подход.

В этом подходе мы используем нейронный автокодировщик и используем его для преобразования элементов данных в вектор числовых значений. Идея заключается в преобразовании двух сравниваемых наборов данных в строго числовые векторы с одинаковым количеством значений с использованием автоэнкодера, а затем в вычислении разницы между средним значением векторов в каждом наборе данных. Затем метрика расстояния AAD включает в себя вычисление среднего значения в каждом наборе данных, а затем сравнение двух средних значений для вычисления расстояния. Это дает нам хорошее представление о сходстве между двумя наборами данных.

Например, рассмотрим набор данных MNIST. Мы конвертируем его в (0,3456, 0,9821,... 0,5318) с помощью автоэнкодера. Возьмите другой набор данных, состоящий из таких элементов, как («мужчина», 31 год, 58 000,00 долларов США, «продажи»), которые преобразуются в (0,1397, 0,7382,... 0,0458). Когда у нас есть числовые векторы соответствующих наборов данных с одинаковым количеством значений, наша следующая задача состоит в том, чтобы найти среднее значение каждого набора данных, а затем найти разницу между двумя средними значениями, чтобы получить соответствующее представление о сходстве между MNIST и другим. данный набор данных.

Преимущества и недостатки ААД

Другие подходы часто имеют прочную математическую основу и желаемые математические свойства, но они становятся слишком сложными для использования в некоторых сценариях. Метрика среднего расстояния автоэнкодера (AAD) использует более простой подход. Поэтому реализовать AAD становится намного проще.

Преимущества AAD заключаются в том, что AAD легче вычислить, проще понять, и его можно легко использовать с любым типом данных, включая данные со смешанными числовыми и нечисловыми переменными-предикторами.

Основным недостатком AAD является то, что AAD не содержит столько информации, сколько передается другими подходами. Таким образом, это может не дать желаемых результатов в определенных сценариях.

Реализация идеи AAD в наборах данных Brats

Давайте попробуем реализовать эту идею AAD на двух наборах данных сегментации опухолей головного мозга (Brats). Наборы данных можно загрузить с Kaggle по ссылкам, приведенным ниже.





Код для реализации приведен в блокноте, ссылка на который приведена ниже.

https://drive.google.com/file/d/1f3BiMv6eIxq5V0SQlcpKUG8jLvXrCuod/view?usp=drivesdk

Приведенный выше код интересен тем, что его можно использовать для любых двух наборов данных с небольшими изменениями.

Обратите внимание, что идея AAD реализована в коде очень интуитивно, и может потребоваться определенная импровизация. Это простая попытка воспроизвести технику AAD, используемую Microsoft, и она не является строгой. Исключительно Microsoft обладает всеми правами на случай, если позже выяснится, что авторские права на технику принадлежат Microsoft. Этот код, написанный выше, основан на моем собственном понимании понятия среднего расстояния автоэнкодера и НЕ является воспроизведением какого-либо стандартизированного фрагмента кода на случай, если позже выяснится, что этот метод защищен авторскими правами Microsoft и недоступен для использования в общественном достоянии. .

Заключение

Понятие расстояния является настолько основным и фундаментальным понятием, что чаще всего используется в качестве примитива, из которого извлекаются полезность другие инструменты и методы. Предлагаемая здесь техника AAD, по-видимому, обладает потенциальным решением проблем, возникающих из-за ограниченной доступности конкретных данных. Скорее всего, он будет использоваться в качестве инструмента в конвейере машинного обучения. Кажется, что перспективы потенциального воздействия этого метода достаточно широки, чтобы охватить большинство условий, в которых машинное обучение используется в основном. В частности, это связано с относительной простотой концепции AAD. Возможно, самое непосредственное влияние этого может быть связано с его применением в трансферном обучении. Улучшения в этом подходе могут иметь множество результатов, от социальных до экологических, как внутри сообщества машинного обучения, так и за его пределами.

[1] Вычисление подобия наборов данных машинного обучения — чистый ИИ

[2] [2002.02923] Расстояния набора геометрических данных с помощью оптимального транспорта (arxiv.org)

[3] Автоэнкодер — Википедия