Data Staging — важная концепция, которую нужно знать. В этой статье мы обсудим Что такое размещение данных?, Зачем оно нам нужно? И его преимущества.

Давайте представим, что вы и члены вашей семьи хотите съесть фрукты, которые вы купили на рынке. Получив его с рынка, что вы будете делать? Вы же не дадите им сразу поесть, да?

Вы положите их в миску, затем очистите пресной водой. Затем вы можете нарезать, смешать немного соли, перца в соответствии с вашими потребностями, а затем подавать их в маленькой миске/подносе. Затем вы едите его и смотрите шоу Netflix.

Теперь сравните сырые фрукты как необработанные данные, весь процесс очистки, нарезки и смешивания как ETL, миску, которую вы использовали в качестве хранилища данных/киоска данных, и миску, которую вы временно использовали до того, как использовать в качестве области хранения данных

Давайте узнаем, что это такое…

Что такое область хранения данных?

Промежуточная область — это проектная концепция конвейера данных. Это место, где необработанные/необработанные данные временно хранятся перед изменением для последующего использования. Примерами этого являются таблицы базы данных, файлы в облачной системе хранения и другие промежуточные регионы. В первую очередь он находится между источниками данных и хранилищем данных.

Зачем нам нужна сценическая площадка?

Как показано на диаграмме, вы должны очистить и проанализировать свои операционные данные, прежде чем помещать их в хранилище. Хотя в большинстве хранилищ данных вместо этого используется промежуточная область, это можно сделать программно. Промежуточная область упрощает очистку и консолидацию операционных данных из многочисленных исходных систем, особенно для корпоративных хранилищ данных, которые объединяют все важные данные организации.

Данные в исходной системе постоянно изменяются в большинстве конвейеров данных. Каждый запуск конвейера данных создает исторический моментальный снимок исходных данных, сохраняя данные из источника в промежуточной области.

В результате создается впечатление, что промежуточная область содержит прошлые снимки исходных данных. Для исторических данных промежуточная область исключает нашу зависимость от источника.

Преимущества области хранения данных

  • Вам может потребоваться обширная обработка для вашего ETL, что требует большого количества промежуточных таблиц, которые используются только во время процесса ETL. Возможно, вы не захотите включать эти промежуточные таблицы в свое хранилище данных.
  • Необработанные данные могут быть доступны не все сразу, поэтому вам понадобится место для их хранения, прежде чем начать процесс ETL для создания хранилища данных.
  • Поскольку ваш ETL может не соответствовать требованиям производственного окна вашего хранилища данных, вам нужно будет подготовить свои «выходные данные» (т. е. новые записи для хранилища данных) вместо или в дополнение к вашей рабочей базе данных.

В приведенных выше случаях область подготовки данных является лучшим решением.

Примечание. Область промежуточного хранения данных не является обязательной для ваших заданий ETL. Но это предпочтительнее в соответствии с вашими потребностями. Вы по-прежнему можете запускать задания ETL, не создавая их.

Пожалуйста, поделитесь своим мнением в комментариях

Поставьте ❤️, если мои старания помогут вам немного. Это меня сильно мотивирует

Используемые ресурсы: hevodata.com и docs.microsoft.com

Первоначально опубликовано на https://www.linkedin.com.