Эта статья является третьей и последней статьей в моей серии «Биологическое компьютерное зрение», в которой я пытаюсь объяснить и сравнить ведущие архитектуры компьютерного зрения через биологическую линзу. В предыдущих статьях я объяснил работу двух современных архитектур — CNN и Vision Transformers, а также биологическое назначение, стоящее за их конструкцией. В этой статье я сопоставлю их и обсужу, какой из них ближе к человеческому зрению.

Настройка сцены

Эта статья требует базового понимания архитектур, обсуждаемых на фоне классификации. Вот более ранние статьи из этой серии, которые помогут вам, если вам это нужно:

  1. CNN
  2. Трансформеры видений

Чтобы быстро подвести итог тому, как эти архитектуры достигают современной производительности, а иногда и сверхчеловеческих результатов в задачах компьютерного зрения сегодня, мы кратко рассмотрим их отличительные характеристики.

Сверточные нейронные сети (CNN) — это усовершенствование простых искусственных нейронных сетей (ANN) за счет значительного добавления индуктивных смещений, полученных от зрительной системы животных. Возможность «сканировать» важные функции изображения значительно снижает вычислительные затраты и значительно повышает производительность CNN. Это делается путем свертки входного изображения с картами объектов, которые обучены идентифицировать важные функции, и передачи результата на следующий слой свертки нейронной сети. Таким образом, справедливо предположить, что примитивные функции, такие как линии, ребра и кривые, имеют приоритет на более ранних уровнях сети, а более сложные функции, такие как очертания и формы, идентифицируются более поздними слоями. Здесь важно отметить, что, поскольку все фрагменты (свернутые картами объектов) обрабатываются с одинаковыми весами, CNN трансляционно инвариантны — функции могут быть где угодно на изображении (опять же, под влиянием визуальных ячеек в кора животных).

Индуктивное смещение модели машинного обучения — это набор допущений, которые она использует для расчета прогноза на основе входных данных. Эти допущения обычно реализуются в модели, чтобы влиять на процесс обучения и прогнозирования определенным образом, что, как ожидается, улучшит производительность.

Преобразователи зрения (ViT), с другой стороны, работают с совершенно другим набором предположений и индуктивных предубеждений. Они используют вариант когнитивного механизма внимания, называемый самовниманием. Здесь каждый патч запрашивается вместе со всеми другими патчами, составляющими входное изображение, чтобы определить, насколько он значим в данном контексте. Другими словами, это по существу позволяет модели «уделять внимание» только нескольким частям изображения, которые, по ее мнению, важны для различения классов в задаче классификации.

Поскольку индуктивные смещения, используемые в этих двух моделях, настолько различны, это приводит нас к вопросу — какая из моделей работает более похоже на людей? Обрабатывают ли модели визуальную информацию так же, как мы? Совершают ли они те же ошибки, что и мы? Мы узнаем!

Формы и текстуры

Несмотря на то, что CNN являются очень успешной архитектурой зрения и утверждают, что они остаются близкими к своим корням из зрительной коры животных, недавняя работа показала, что она резко отличается от обработки зрительной информации человеком. Hermann et al и другие статьи обнаружили, что CNN классифицируют изображения на основе текстуры, а не формы. Однако люди отдают приоритет информации о форме для классификации. Когда нас просят определить, является ли данный образ животного собакой или кошкой, мы придаем большее значение форме или очертаниям животного, чем его коже или меху. CNN делают обратное.

Очевидно, что CNN имеют сильное смещение текстуры, как показано выше, при его работе с диагностическим набором данных, где формы изображений сохранялись, а текстура менялась. Человек классифицировал бы изображение справа как кошку из-за сохранения контура формы. Это означает, что CNN будет трудно классифицировать эскизы или рисунки. Почему CNN в конечном итоге склоняются к текстуре, а не к форме, если это не было объяснено в процессе проектирования? Оказывается, индуктивные смещения, выбранные при проектировании, могут иметь неожиданные последствия. Здесь виноват выбор дизайна, заключающийся в свертывании частей изображения для поиска функций. Convolution уделяет большое внимание локальной связности, а не глобальному контексту. Таким образом, функции, которые в конечном итоге изучают CNN, имеют тенденцию быть локализованными, что объясняет чрезмерный приоритет текстуры. Это потенциально проливает свет на то, что исследователи называют текстурной гипотезой — что текстуры являются наиболее отличительными аспектами изображения в парадигме классификации.

Это рассуждение, стоящее за предвзятостью формы CNN, стало яснее с появлением Vision Transformers. ViT разработаны с гораздо более слабыми индуктивными смещениями. Механизм само-внимания — это очень неограниченная предвзятость. Он просто повышает актуальность определенной информации на изображении. Точная информация и регионы, которые будут взвешены, могут быть изучены во время обучения. На самом деле было обнаружено, что временами Vision Transformers выполняют операции, аналогичные сверткам Cordonnier et al (возвращаясь к текстурной гипотезе). Однако это не всегда так, и важным выводом является то, что индуктивные смещения трансформатора гораздо более гибкие и не связаны с извилинами. Это приводит к тому, что ViT узнают о важности признаков в глобальном контексте, что аналогично тому, как люди определяют формы на изображениях для классификации.

Ошибки

Можно многое узнать о стратегии, используемой алгоритмом классификации — в нашем мозгу или внутри нейронной сети — через ошибки, которые он делает. Что наиболее важно, мы можем сравнить, насколько человеческие стратегии, используемые CNN и Vision Transformers, основаны на изображениях, которые они неправильно классифицируют. Если ошибки, совершаемые людьми и алгоритмом обучения, совпадают, мы можем сделать вывод о сходстве в стратегиях обучения, которые используют алгоритмы. Чтобы сравнить стратегии, исследователи (Geirhos et al.) придумали показатель согласованности ошибок — Каппа Коэна, κ, — который рассчитывается на основе вероятностей неправильной классификации. Здесь — удивительная запись в блоге автора (Роберт Гейрхос), которая устанавливает контекст для такой метрики. Значение κ, равное 1, означает идентичную стратегию, а 0 предполагает совершенно разные стратегии. Важно отметить, что эта метрика не влияет на то, что неправильно классифицирует система. Для этого Тули и др. придумали Расстояния Дженсена-Шеннона (JS), принимая во внимание также классовые ошибки. Большее расстояние подразумевает меньшую согласованность ошибок и наоборот. Пытаясь обобщить все вышесказанное, Тули и др. провели всесторонние эксперименты с трансформерами видения и CNN, чтобы вычислить их результаты согласованности ошибок.

Согласованность ошибок говорит нам, насколько похожи были ошибки, сделанные архитектурой, по сравнению с людьми. Мы видим, что для расстояний Каппы Коэна и JS-расстояний по классам преобразователи Vision показывают лучшие результаты с точки зрения согласованности ошибок (несмотря на то, что они все еще далеки от человеческой стратегии), чем CNN. Они делают аналогичные неправильные классификации для людей по сравнению с CNN. Разница между расстояниями JS не слишком актуальна для обсуждения, и сравнение между классами можно пока игнорировать в целом.

Что все это значит?

В приведенных выше разделах было установлено, что Vision Transformers кажутся более похожими на человека, чем CNN, с точки зрения смещения формы, а также большей согласованности ошибок с людьми. Что это нам говорит?

Индуктивные смещения имеют решающее значение

Во-первых, все это позволяет нам осознать, что до действительно человекоподобного ИИ нам еще далеко. Алгоритмы, как правило, обучаются наиболее эффективным способом, учитывая их индуктивную предвзятость. Внедрение более «осторожных» и человекоподобных индуктивных смещений может быть ключом. Тем не менее, мы подошли к достойному началу, черпая вдохновение в зрительных путях и когнитивном внимании животных. Следующим шагом может быть внедрение результатов поведенческого анализа ранних людей (или, чаще, младенцев) в индуктивные предубеждения модели. То, что мы можем извлечь из того, как новорожденный ребенок учится использовать свои глаза, чтобы понимать мир, может иметь огромный потенциал для индуктивных искажений будущих моделей зрения ML.

Трансформеры отлично учатся

Идя в направлении, противоположном моему предыдущему пункту, мы также узнаем, что Трансформеры действительно хорошо учатся. Это очевидно, поскольку он сначала завоевал область обработки естественного языка, а теперь начал играть мускулами в области компьютерного зрения. Мы получили в свои руки одну из первых высокопроизводительных архитектур, которую можно адаптировать для разных доменов. Это имеет огромное значение для приближения к ИИ общего назначения. Мы можем предположить, что эта способность к столь хорошим обобщениям обусловлена ​​его слабыми индуктивными смещениями. Хотя считалось, что свертка в CNN и аналогичные методы помогают в обработке визуальной информации, мы пришли к выводу, что она имеет свои недостатки, такие как смещение текстуры. Заменив свертки более слабым индуктивным смещением внимания к себе, мы получили гораздо более мощный и надежный механизм обучения по понятной цене, связанной с более высокими затратами на обучение. Может быть, само-внимание — это просто очень мощное базовое индуктивное смещение, и мы можем добавить более специализированные индуктивные смещения, чтобы продолжать улучшать модели для предметных областей. Это можно увидеть в том, что кажется реинкарнацией извилин в SWIN Transformers (самое последнее состояние искусства).

В заключение

Мы сравнили два распространенных семейства архитектур компьютерного зрения. Помимо достижения большей точности, чем CNN, Vision Transformers также удается быть более «человеческим», чем его аналог. Это было замечено посредством анализа смещения формы и текстуры, а также согласованности ошибок в разных архитектурах. Мы также узнали, что тщательный и правильный выбор индуктивных смещений имеет решающее значение для создания лучших алгоритмов машинного обучения, которые используют стратегии, аналогичные человеческим. Однако, когда я пишу это, у меня в голове всплывает вопрос — нужен ли нам вообще ИИ, чтобы он был похож на человека? Возможно, гипотеза текстуры верна; самообучение важности текстуры в CNN может быть более эффективным и действенным способом обработки визуальной информации, несмотря на то, что это отличается от того, как мы это делаем. Я оставлю вас с этой мыслью и надеюсь, что вы смогли что-то почерпнуть из этой серии.

Рекомендации

  1. Истоки и распространенность смещения текстур в сверточных нейронных сетях
  2. Обученные ImageNet CNN склонны к текстуре; увеличение смещения формы повышает точность и надежность
  3. О взаимосвязи самовнимания и сверточных слоев
  4. Сверточные нейронные сети или трансформеры больше похожи на человеческое зрение?
  5. Помимо точности: количественная оценка поведения CNN и людей в ходе испытаний путем измерения постоянства ошибок
  6. Swin Transformer: Преобразователь иерархического зрения с использованием сдвинутых окон