чів - аналітиків. Мета OLAP-аналізу - перевірка виникаючих гіпотез.
У загальному вигляді архітектура OLAP-системи описується схемою з трьома виділеними шарами (малюнок 3).
Рис. 3. Архітектура OLAP-системи
У процесі аналізу даних часто виникає необхідність побудови залежностей між різними параметрами, число яких може бути значним.
Можливість аналізу залежностей між різними параметрами передбачає можливість подання даних у вигляді багатовимірної моделі - гіперкуба або OLAP-куба.
Рис. 4. Представлення даних у вигляді гіперкуба
Вимірювання (Dimensions) - послідовність значень одного з аналізованих параметрів. Наприклад, для параметра «час» це - послідовність днів, місяців, кварталів, років.
На перетинах осей вимірювань розташовуються дані, що кількісно характеризують аналізовані факти, - заходи (Measures). Це можуть бути обсяги продажів, залишки на складі і т.п.
Ребрами такого гіперкуба є вимірювання, а осередками - заходи.
OLAP-система включає в себе два основних компоненти: OLAP-клієнт і OLAP-сервер.
OLAP-клієнт надає користувачеві інтерфейс до багатовимірної моделі даних, забезпечуючи його можливістю зручно маніпулювати даними для виконання завдань аналізу.
Клієнтські OLAP-засоби застосовуються, як правило, при малому числі вимірів (зазвичай рекомендується не більше шести) і невеликій розмаїтості значень цих параметрів, - адже отримані агрегатні дані повинні уміщатися в адресному просторі подібного кошти, а їх кількість зростає експоненціально при збільшенні числа вимірів. Тому навіть найпримітивніші клієнтські OLAP-засоби, як правило, дозволяють зробити попередній підрахунок обсягу необхідної оперативної пам'яті для створення в ній багатовимірного куба.
OLAP-сервер забезпечує зберігання даних, виконання над ними необхідних операцій і формування багатовимірної моделі на концептуальному рівні.
Некоторие клієнтські OLAP-засоби (зокрема, Microsoft Excel) дозволяють звертатися до серверних OLAP-сховищ, виступаючи в цьому випадку в ролі клієнтських додатків, що виконують подібні запити. системи надають аналітику засоби перевірки гіпотез при аналізі даних. При цьому основним завданням аналітика є генерація гіпотез. Очевидно, що для виявлення прихованих знань необхідно застосовувати спеціальні методи автоматичного аналізу, за допомогою яких припадає практично добувати знання з «завалів» інформації.
Виникає потреба пошуку взаємозв'язків між окремими подіями серед великих обсягів даних.
За цим напрямком міцно закріпився термін «інтелектуальний аналіз даних» або Data Mining. Класичним вважається визначення, дане засновником напрямки в 1996 році Григорієм Пятецкий-Шапіро: Data Mining - дослідження і виявлення «машиною» в сирих даних прихованих знань, які раніше не були відомі, нетривіальні, практично корисні, доступні для інтерпретації человеком.Mining - це процес виділення, дослідження та моделювання великих обсягів даних для виявлення невідомих до цього структур з метою досягнення переваг у бізнесі.
Рис. 5. Мультидисциплінарний характер Data Mining
Основними завданнями, з якими стикається аналітик є - класифікація, регресія, пошук асоціативних правил і кластеризація.
Завдання класифікації полягає в тому, що для кожного варіанту визначається категорія або клас, якому він належить. Як приклад можна привести оцінку кредитоспроможності потенційного позичальника: призначувані класи тут можуть бути «кредитоспроможний» і «некредітоспособен». Для виконання завдання потрібно, щоб безліч класів було відомо заздалегідь і було б кінцевим і рахунковим.
Рис. 6. Ілюстрація задачі класифікації
Завдання регресії в чому схожа з завданням класифікації, але в ході її рішення проводиться пошук шаблонів для визначення безперервного числового значення.
Рис. 7. Ілюстрація завдання регресії
Окремо виділяється завдання прогнозування нових значень на підставі наявних значень числової послідовності. При цьому можуть враховуватися наявні тенденції (тренди), сезонність, інші фактори. Класичним прикладом є прогнозування цін акцій на біржі.
Усі завдання інтелектуального аналізу за способом рішення можна розділити на два класи: навчання з учителем і навчання без учителя.
У першому випадку, потрібна навчальний набір даних, на якому створюється і навчається модель інтелектуального аналізу. Готова модель тестується і використовується ...