.
Витяг даних - щоб почати ETL-процес, необхідно витягти дані з одного або декількох джерел і підготувати їх до етапу перетворення. Можна виділити два способи вилучення даних:
. Витяг даних допоміжними програмними засобами безпосередньо з структур зберігання інформації (файлів, електронних таблиць, БД і т.п. Достоїнствами такого способу вилучення даних є:
відсутність необхідності розширювати OLTP-систему (це особливо важливо, якщо її структура закрита);
дані можуть вилучатись з урахуванням потреб процесу перенесення.
. Вивантаження даних засобами OLTP-систем в проміжні структури.
Достоїнствами такого підходу є:
можливість використовувати засоби OLTP-систем, адаптовані до структурам даних;
засоби вивантаження змінюються разом зі змінами OLTP-систем і ОІД;
можливість виконання першого кроку перетворення даних за рахунок певного формату проміжної структури зберігання даних.
Малюнок 4. ETL-процес.
Перетворення даних - після того як збір даних завершений, необхідно перетворити їх для розміщення на новому місці. На цьому етапі виконуються наступні процедури:
узагальнення даних (aggregation) - перед завантаженням дані узагальнюються. Процедура узагальнення замінює численні детальні дані відносно невеликим числом агрегованих даних. Наприклад, припустимо, що дані про продажі за рік займають в нормалізованої базі даних кілька тисяч записів. Після узагальнення дані перетворюються в менше число коротких записів, які будуть перенесені в ХД;
переклад значень (value translation) - у ОІД дані часто зберігаються в закодованому вигляді для того, щоб скоротити надмірність даних і пам'ять для їх зберігання. Наприклад, назви товарів, міст, спеціальностей і т.п. можуть зберігатися в скороченому вигляді. Оскільки ХД містять узагальнену інформацію і розраховані на просте використання, закодовані дані зазвичай заміняють на більш зрозумілі описи;
створення полів (field derivation) - при створенні полів для кінцевих користувачів створюється і нова інформація. Наприклад, ОІД містить одне поле для зазначення кількості проданих товарів, а друге - для вказівки ціни одного примірника. Для виключення операції обчислення вартості всіх товарів можна створити спеціальне поле для її зберігання під час перетворення даних;
очистка даних (cleaning) - спрямована на виявлення і видалення помилок і невідповідностей в даних з метою поліпшення їх якості. Проблеми з якістю зустрічаються в окремих ОІД, наприклад, у файлах і БД можуть бути помилки при введенні, окрема інформація може бути втрачена, можуть бути присутніми «забруднення» даний та ін. Очищення також застосовується для узгодження атрибутів полів таким чином, щоб вони відповідали атрибутам бази даних призначення.
Завантаження даних - після того як дані перетворені для розміщення в ХД, здійснюється етап їх завантаження. При завантаженні виконується запис перетворених детальних і агрегованих даних. Крім того, при записі нових детальних даних частина старих може переноситися в архів.
2. OLAP системи
2.1 Визначення OLAP-систем
З концепцією багатовимірного аналізу даних тісно пов'язують оперативний аналіз, який виконується засобами OLAP-систем. (On-Line Analytical Processing) - технологія оперативної аналітичної обробки даних, що використовує методи і засоби для збору, зберігання та аналізу багатовимірних даних з метою підтримки процесів прийняття рішень.
Основне призначення OLAP-систем - підтримка аналітичної діяльності, довільних (часто використовується термін ad-hoc) запитів користувачів-аналітиків. Мета OLAP-аналізу - перевірка виникаючих гіпотез.
У витоків технології OLAP варто основоположник реляційного підходу Е. Кодд. У 1993 р він опублікував статтю під назвою «OLAP для користувачів-аналітиків: яким він має бути». У даній роботі викладені основні концепції оперативної аналітичної обробки і визначені наступні 12 вимог, яким повинні задовольняти продукти, що дозволяють виконувати оперативну аналітичну обробку.
Нижче перераховані 12 правил, викладених Коддом і визначають OLAP.
. Багатомірність - OLAP-система на концептуальному рівні повинна представляти дані у вигляді багатовимірної моделі, що спрощує процеси аналізу і сприйняття інформації.
. Прозорість - OLAP-система повинна приховувати від користувача реальну реалізацію багатовимірної моделі, спосіб організації, джерела, засоби обробки та зберігання.