Сховища Даних. Він може включати такі операції:
. Витяг - стадія вилучення даних з джерела і завантаження їх у проміжну область. p align="justify">. Виявлення помилок - дані проходять перевірку на відповідність специфікації і потенційну можливість завантаження у Сховище Даних
. Перетворення - дані групуються і наводяться до виду, конформному моделі даних Сховища даних
. Розподіл - дані розподіляються на кілька потоків залежно від способу, яким вони повинні бути завантажені в Сховище даних
. Вставка - підготовлені дані надходять в сховищі даних. p align="justify"> Найперший етап перевантаження даних - вивантаження інформації з джерела даних для програми-обробника, аналітика або на сервер перевантаження даних. Вивантаження зі структурованого джерела даних не викликає ускладнень, можливе використання утиліт СУБД, або скористатися JDBC або ODBC. p align="justify"> Перетворення полягає в відсівання непотрібних даних і перетворенні структури даних вихідної системи до структури даних сховища.
Завантаження полягає у створенні нових записів, або в модифікації існуючих (при повторних завантаженнях), у разі, якщо попередні значення даних не важливі для аналізу.
У ETL можна виділити наступну ієрархію сутностей.
Маппінг (Mapping) - сутність, що визначає послідовність перенесення даних з полів однієї таблиці джерела в поля таблиць сховища, включає в себе правила перевірки та перетворення даних. Нижчий рівень ієрархії. p align="justify"> Сесія (Session) - сутність, що включає в себе один маппінг, фізичні покажчики на таблицю-джерело і таблицю-приймач, і інтерфейси доступу до БД джерелу і приймачу. Проміжний рівень. p align="justify"> Керуючий процес (Workflow) - сутність, що реалізує повний процес перенесення даних з джерел в сховище; складається з послідовності всіх сесій процесу, а також правил ініціалізації кожної сесії. Може містити розклад запуску процесу і додаткові характеристики. Вищий рівень. p align="justify"> Основна складність реалізації ETL-процесу - це точна опрацювання кожного маппінга. Розглянемо процес реалізації маппінга на загальній схемі (Рис 4.2). <В
Рис 4.2 Схема маппінга
На даній схемі виділимо 3 логічні частини: вивантаження даних, обробка та завантаження.
До розвантаженні відносяться сутності Select на схемі. В якості джерел маппінга виступають як таблиця з БД (Source DB) - ті поля, які необхідно витягти з бази-джерела, так і Таблиця з Сховища (Source DWH) - дані витягуються з таблиць сховища для порівняння. p align="justify"> ................