Привнесите причинно-следственную связь в обучение PINN

Добро пожаловать в шестой блог этой серии, где мы продолжаем наше увлекательное путешествие по изучению шаблонов проектирования нейронных сетей, основанных на физике (PINN)🙌

В этом эпизоде ​​мы поговорим о привнесении причинности в обучение нейронных сетей, основанных на физике. Как было предложено в статье, которую мы рассмотрим сегодня: соблюдение причинно-следственных связей — это все, что вам нужно!

Как всегда, давайте начнем с обсуждения текущих вопросов, а затем перейдем к предлагаемым средствам, процедуре оценки, а также преимуществам и недостаткам предлагаемого метода. Наконец, мы завершим блог, исследуя потенциальные возможности, которые ждут нас впереди.

По мере того, как эта серия продолжает расширяться, коллекция шаблонов проектирования PINN становится еще богаче🙌 Вот краткий обзор того, что вас ждет:

Шаблон проектирования PINN 01: Оптимизация распределения остаточных точек

Шаблон проектирования ПИНН 02: Динамическое расширение интервала решения

Шаблон проектирования PINN 03: Обучение PINN с повышением градиента

Шаблон проектирования PINN 04: обучение PINN с использованием градиента

Шаблон проектирования PINN 05: Автоматическая настройка гиперпараметров

Давайте погрузимся!

1. Бумага с первого взгляда 🔍

  • Заголовок: Соблюдение причинно-следственных связей — это все, что вам нужно для обучения нейронных сетей, основанных на физике.
  • Авторы: С. Ван, С. Санкаран, П. Пердикарис
  • Институты: Пенсильванский университет.
  • Ссылка: arXiv, GitHub

2. Шаблон дизайна 🎨

2.1 Проблема 🎯

Нейронные сети, основанные на физике (PINN), — это большой шаг вперед в объединении данных наблюдений и физических законов в различных областях. На практике, однако, часто наблюдается, что они не могут справиться с высокой нелинейностью, многомасштабной динамикой или хаотическими проблемами и имеют тенденцию сходиться к ошибочным решениям.

Почему это так?

Что ж, фундаментальная проблема заключается в нарушении причинно-следственной связи в формулировках PINN, как показано в текущей статье.

Причинность в физическом смысле подразумевает, что состояние в будущем моменте времени зависит от состояния в текущий или прошлый момент времени. Однако в обучении PINN этот принцип может не соблюдаться; эти сети могут быть неявно склонны сначала аппроксимировать решения PDE в будущих состояниях, прежде чем даже разрешать начальные условия, по существу «прыгая вперед» во времени и тем самым нарушая причинно-следственную связь.

Напротив, традиционные численные методы по своей сути сохраняют причинно-следственную связь посредством стратегии перемещения во времени. Например, при дискретизации УЧП по времени эти методы обеспечивают разрешение решения в момент времени t до аппроксимации решения в момент времени t + ∆t. . Следовательно, каждое будущее состояние последовательно строится на разрешенных прошлых состояниях, сохраняя таким образом принцип причинности.

Такое понимание проблемы приводит нас к интригующему вопросу: как исправить это нарушение причинно-следственной связи в PINN, приведя их в соответствие с фундаментальными физическими законами?

2.2 Решение 💡

Основная идея заключается в том, чтобы переформулировать функцию потерь PINN.

В частности, мы можем ввести схему динамического взвешивания для учета различных вкладов остаточных потерь PDE, оцененных в разных временных точках. Давайте разберем его с помощью иллюстраций.

Для простоты предположим, что точки коллокации равномерно выбраны в пространственно-временной области нашего моделирования, как показано на рисунке ниже:

Чтобы перейти к одному шагу градиентного спуска, мы должны сначала вычислить кумулятивную остаточную потерю PDE во всех точках коллокации. Один конкретный способ сделать это — сначала вычислить потери, связанные с точками коллокации, выбранными в отдельные моменты времени, а затем выполнить «простую сумму», чтобы получить общие потери. Затем можно провести следующий этап градиентного спуска на основе рассчитанных общих потерь для оптимизации весов PINN.

Конечно, точный порядок суммирования по точкам коллокации не влияет на вычисление общих потерь; все методы дают один и тот же результат. Однако решение сгруппировать расчеты потерь по временному порядку является целенаправленным, призванным подчеркнуть элемент «временности». Эта концепция имеет решающее значение для понимания предлагаемой стратегии каузального обучения.

В этом процессе остаточные потери PDE, оцененные в разных временных точках, обрабатываются одинаково. это означает, что все временные остаточные потери одновременно минимизируются.

Этот подход, однако, рискует тем, что PINN нарушит временную причинность, поскольку он не обеспечивает хронологическую регуляризацию для минимизации временных остаточных потерь в последовательных интервалах времени.

Итак, как мы можем убедить PINN придерживаться временного приоритета во время обучения?

Секрет заключается в выборочном взвешивании отдельных временных остаточных потерь. Например, предположим, что на текущей итерации мы хотим, чтобы PINN сосредоточился на аппроксимации решений в момент времени t₁. Затем мы могли бы просто присвоить больший вес Lᵣ(t₁), который представляет собой временную остаточную потерюв t₁. Таким образом, Lᵣ(t₁) станет доминирующим компонентом в окончательных общих потерях, и в результате алгоритм оптимизации отдаст приоритет минимизации Lᵣ(t₁), что согласуется с нашей целью аппроксимировать решения в момент времени t₁ в первую очередь.

В последующей итерации мы переключаем наше внимание на решения в момент времени t₂. Увеличив вес Lᵣ(t₂), он теперь становится основным фактором в расчете общих потерь. Таким образом, алгоритм оптимизации направлен на минимизацию Lᵣ(t₂), повышая точность прогнозирования решений при t₂.

Как видно из нашего предыдущего пошагового руководства, изменение весов, присвоенных временным остаточным потерям в разные моменты времени, позволяет нам направить PINN на аппроксимацию решений в выбранные нами моменты времени.

Итак, как это помогает включить каузальную структуру в обучение PINN? Оказывается, мы можем разработать причинно-следственный алгоритм обучения (как предложено в статье), чтобы вес временной остаточной потери в момент времени t,т.е. ,Lᵣ(t),значим только тогда, когда потери до t (Lᵣ(t- 1), Lᵣ(t-2) и т. д.) достаточно малы. Фактически это означает, что нейронная сеть начинает минимизировать Lᵣ(t) только тогда, когда она достигла удовлетворительной точности аппроксимации для предыдущих шагов.

Для определения веса в документе предложена простая формула: вес ωᵢ устанавливается обратно экспоненциально пропорциональным величине кумулятивных временных остаточных потерь из всех предыдущих моментов времени. Это гарантирует, что вес ωᵢ будет активным (т. е. с достаточно большим значением) только тогда, когда совокупная потеря от всех предыдущих моментов времени мала, т. е. PINN уже может точно аппроксимировать решения на предыдущих временных шагах. Вот как временная причинность отражается в обучении PINN.

Объяснив все компоненты, мы можем собрать воедино полный алгоритм каузального обучения следующим образом:

Прежде чем мы завершим этот раздел, стоит упомянуть два замечания:

  1. В документе предлагается использовать величину ωᵢ в качестве критерия остановки для обучения PINN. В частности, когда все ωᵢ больше заранее определенного порога δ, обучение можно считать завершенным. Рекомендуемое значение δ составляет 0,99.
  2. Важно выбрать правильное значение ε. Хотя это значение можно настроить с помощью обычной настройки гиперпараметров, в документе рекомендуется стратегия отжига для настройки ε. Подробности можно найти в оригинальной статье (раздел 3).

2.3 Почему решение может сработать 🛠️

Путем динамического взвешивания временных остаточных потерь, оцененных в разные моменты времени, предлагаемый алгоритм может направить обучение PINN так, чтобы сначала аппроксимировать решения PDE в более ранние моменты времени, прежде чем пытаться найти решение в более поздние моменты времени.

Это свойство облегчает явное включение временной причинности в обучение PINN и является ключевым фактором в потенциально более точном моделировании физических систем.

2.4 Контрольный показатель ⏱️

В документе рассмотрено в общей сложности 3 различных эталонных уравнения. Все задачи являются прямыми задачами, в которых PINN используется для решения PDE.

  • Система Лоренца: эти уравнения возникают при изучении конвекции и неустойчивости планетарной атмосферной конвекции. Система Лоренца проявляет сильную чувствительность к своим начальным условиям, и известно, что она сложна для ванильного PINN.

  • Уравнение Курамото-Сивашинского: это уравнение описывает динамику различных волнообразных структур, таких как пламя, химические реакции и поверхностные волны. Известно, что он демонстрирует множество пространственно-временных хаотических поведений.

  • Уравнение Навье-Стокса: этот набор дифференциальных уравнений в частных производных описывает движение жидких веществ и составляет основные уравнения гидромеханики. В настоящей статье рассмотрен классический пример двумерной затухающей турбулентности в квадратной области с периодическими граничными условиями.

Сравнительные исследования показали, что:

  • Предложенный алгоритм причинного обучения смог повысить точность в 10–100 раз по сравнению с обычной схемой обучения PINN.
  • Продемонстрировано, что PINN, оснащенные алгоритмом причинного обучения, могут успешно моделировать сильно нелинейные, многомасштабные и хаотические системы.

2.5 Сильные и слабые стороны ⚡

Сильные стороны💪

  • Соблюдает принцип причинно-следственной связи и делает обучение PINN более прозрачным.
  • Вводит значительные улучшения точности, позволяя решать проблемы, которые остаются неуловимыми для PINN.
  • Предоставляет практический количественный критерий для оценки обучающей конвергенции PINN.
  • Незначительные дополнительные вычислительные затраты по сравнению со стандартной стратегией обучения PINN. Единственная дополнительная стоимость заключается в вычислении ωᵢ, что незначительно по сравнению с операциями автоматического сравнения.

Слабые стороны📉

  • Введен новый гиперпараметр ε, который управляет планированием весов для временных остаточных потерь. Хотя авторы предложили стратегию отжига в качестве альтернативы, чтобы избежать утомительной настройки гиперпараметров.
  • Усложнил рабочий процесс обучения PINN. Особое внимание следует уделить временным весам ωᵢ, поскольку теперь они являются функциями обучаемых параметров сети (например, весов слоев и смещения), а градиент, связанный с вычислением ωᵢ, не должен распространяться обратно.

2.6 Альтернативы 🔀

Есть несколько альтернативных методов, которые пытаются решить ту же проблему, что и текущий «алгоритм каузального обучения»:

  • Стратегия адаптивной временной выборки (Уайт и др.): вместо взвешивания точек коллокации в разные моменты времени эта стратегия изменяет плотность выборки точек коллокации. Это имеет аналогичный эффект смещения фокуса оптимизатора на минимизацию временных потерь в разные моменты времени.
  • Стратегия движения во времени/обучения по учебной программе (например, Кришнаприян и др.): временная причинность соблюдается за счет последовательного изучения решения в отдельных временных окнах.

Однако по сравнению с этими альтернативными подходами «алгоритм каузального обучения» выдвигает временную причинность на первое место и делает его более адаптируемым к целому ряду задач и требует низких дополнительных вычислительных затрат.

3 возможных будущих улучшения 🌟

Есть несколько возможностей для дальнейшего улучшения предложенной стратегии:

  • Включение более сложных стратегий выборки данных, таких как адаптивные и остаточные методы выборки, для дальнейшего повышения эффективности и точности обучения.

Чтобы узнать больше о том, как оптимизировать распределение остаточных баллов, ознакомьтесь с этим блогом в серии шаблонов проектирования PINN.

  • Расширение до настроек обратной задачи. Как обеспечить несчастные случаи при наличии точечных источников информации (например, данных наблюдений) потребует расширения предлагаемой в настоящее время стратегии обучения.

4 вывода 📝

В этом блоге мы рассмотрели, как привнести причинно-следственную связь в обучение PINN, переформулировав цели обучения. Вот основные моменты шаблона проектирования, предложенного в документе:

  • [Проблема]: Как заставить PINN уважать принцип причинности, лежащий в основе физических систем?
  • [Решение]: переформулировать цель обучения PINN, где вводится схема динамического взвешивания для постепенного смещения фокуса обучения с более ранних временных шагов на более поздние.
  • [Потенциальные преимущества]: 1. Значительно улучшена точность PINN. 2. Расширена применимость PINN к сложным задачам.

Вот карта дизайна PINN, чтобы обобщить выводы:

Я надеюсь, что вы нашли этот блог полезным! Чтобы узнать больше о шаблонах проектирования PINN, ознакомьтесь с предыдущими сообщениями:

С нетерпением ждем возможности поделиться с вами новыми идеями в следующих блогах!

Ссылка 📑

[1] Ван и др., Уважение причинно-следственных связей — это все, что вам нужно для обучения нейронных сетей, основанных на физике, arXiv, 2022.