вимірам. Залежно від можливості агрегувати дані вони поділяються на такі типи:
адитивні - числові фактичні дані, які можуть бути підсумовані по всіх вимірах;
полуаддітівние - числові фактичні дані, які можуть бути підсумовані тільки по певних вимірам;
неаддитивну - фактичні дані, які не можуть бути підсумовані ні по одному вимірюванню.
Проведені дослідження показали, що більшість користувачів СППР працюють не з детальними, а з агрегованими даними. Архітектура ХД повинна надавати швидкий і зручний спосіб отримувати цікаву користувача інформацію. Для цього необхідно частину агрегованих даних зберігати в ХД, а не обчислювати їх при виконанні аналітичних запитів. Очевидно, що це веде до надмірності інформації і збільшенню розмірів ХД. Тому при проектуванні таких систем важливо домогтися оптимального співвідношення між обчислюваними і зберігаються агрегованими даними. Ті дані, до яких рідко звертаються користувачі, можуть обчислюватися в процесі виконання аналітичних запитів. Дані, які потрібні більш часто, повинні зберігатися в ХД.
Для зручності роботи з ХД необхідна інформація про містяться в ньому даних. Така інформація називається метаданими (дані про дані). Згідно з концепцією Захмана метадані повинні відповідати на наступні питання - що, хто, де, як, коли і чому:
що (опис об'єктів) - метадані описують об'єкти предметної області, інформація про яких зберігається в ХД. Такий опис включає: атрибути об'єктів, їх можливі значення, відповідні поля в інформаційних структурах ХД, джерела інформації про об'єкти і т. П.;
хто (опис користувачів) - метадані описують категорії користувачів, що використовують дані. Вони описують права доступу до даних, а також містять у собі відомості про користувачів, які виконували над даними різні операції (введення, редагування, завантаження, витяг і т. П.);
де (опис місця зберігання) - метадані описують місце розташування серверів, робочих станцій, ОІД, розміщені на них програмні засоби та розподіл між ними даних;
як (опис дій) - метадані описують дії, що виконуються над даними. Описувані дії могли виконуватися як в процесі перенесення з ОІД (наприклад, виправлення помилок, розщеплення полів тощо), так і в процесі їх експлуатації в ХД;
коли (опис часу) - метадані описують час виконання різних операцій над даними (наприклад, завантаження, агрегування, архівування, витяг і т. п.);
чому (опис причин) - метадані описують причини, що призвели виконання над даними тих чи інших операцій. Такими причинами можуть бути вимоги користувачів, статистика звернень до даних і т.п.
Так як метадані відіграють важливу роль у процесі роботи з ХД, то до них повинен бути забезпечений зручний доступ. Для цього вони зберігаються в репозиторії метаданих із зручним для користувача інтерфейсом.
Дані, що надходять з ОІД в ХД, переміщувані всередині ХД і які поступають з ХД до аналітиків, утворюють такі інформаційні потоки (малюнок 3):
вхідний потік (Inflow) - утворюється даними, копійований з ОІД в ХД;
потік узагальнення (Upflow) - утворюється агрегированием детальних даних та їх збереженням в ХД;
архівний потік (Downflow) - утворюється переміщенням детальних даних, кількість звернень до яких знизилося;
потік метаданих (MetaFlow) - утворюється потоком інформації про дані в репозиторій даних;
вихідний потік (Outflow) - утворюється даними, видобуваються користувачами;
зворотний потік (Feedback Flow) - утворюється очищеними даними, записуваними назад в ОІД.
Найпотужніший з інформаційних потоків - вхідний - пов'язаний з перенесенням даних з ОІД. Зазвичай інформація не просто копіюється в ХД, а піддається обробці: дані очищаються і збагачуються за рахунок додавання нових атрибутів. Вихідні дані з ОІД об'єднуються з інформацією із зовнішніх джерел - текстових файлів, повідомлень електронної пошти, електронних таблиць та ін. При розробці ХД не менше 60% всіх витрат пов'язане з перенесенням даних.
Процес перенесення, що включає в себе етапи вилучення, перетворення і завантаження, називають ETL-процесом (Е - extraction, Т - transformation, L - loading: витяг, перетворення і завантаження, відповідно). Програмні засоби, що забезпечують його виконання, називаються ETL-системами. Традиційно ETL-системи використовувалися для переносу інформації з застарілих версій інформаційних систем в нові. В даний час ETL-процес знаходить все більше застосування для перенесення даних з ОІД в ХД і ВД.
Більш докладно етапи ETL-процесу відображені на малюнку 4...