Федеральне агентство з освіти
Державна освітня установа вищої професійної освіти
«УФИМСЬКИЙ ДЕРЖАВНИЙ АВІАЦІЙНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ»
Факультет інформатики та робототехніки
Кафедра Фінанси, грошовий обіг і економічна безпека
Лабораторна робота
з дисципліни «Інформаційні системи в економіці»
«Вивчення методів інтелектуального аналізу даних у середовищі Statgraphics: кластерний аналіз, компонентний аналіз»
Виконали: студенти групи ФЕБ - 402
Сайфутдінова А.Е.
Хамматова Д.Р.
Уфа, +2014
Робота 1
Метою роботи є вивчення особливостей виконання кластерного аналізу в середовищі StatGraphics і застосування отриманих результатів для дослідження структури даних і отримання знань.
Вихідні дані представлені в таблиці 1.
Таблиця 1 Вихідні дані
ПредпріятіяПорядковий номерy 1х 5х 7х 9х 10119,260,781,370,231,45 .229,380,751,490,391,33312,110,681,440,431,374410,810,71,420,181,65559,350,621,350,151,91669,870,761,390,341,682479,370,791,40,212,329810,020,761,220,322,624399,420,71,20,282,0312105,490,741,10,051,0214116,610,721,230,480,8815124,320,681,390,410,6216137,370,771,380,621,0923145,520,721,241,20,6827155,680,711,280,661,4328165,220,791,330,741,8241176,70,791,350,391,24
де, Y1 - продуктивність праці;
X5 - питома вага робітників у складі промислово-виробничого персоналу;
X7 - коефіцієнт змінності устаткування (змін);
X9 - питома вага втрат від браку (%);
X10 - фондовіддача активної частини основних виробничих фондів.
Необхідно виконати кластерний аналіз для розширеної вибірки. Для цього вибираємо з головного меню опцію Special gt; Multivariate Methods gt; Cluster Analysis. У вікні задаємо змінні для аналізу, для цього двічі натискаємо лівою кнопкою миші на змінні і натискаємо на стрілку «Data».
. Необхідно вибрати вид відстані і вид правила для виконання кластеризації.
. Побудувати дендрограмм.
. Провести аналіз дендрограмми.
А) Спочатку необхідно побудувати повну дендрограмм, що об'єднує всі об'єкти в один кластер. На малюнку 1 представлена ??дендрограмма.
Малюнок 1 - Дендрограмма
Б) Необхідно визначити, скільки згущень формується в рамках дендрограмми. Кількість згущень визначається кількістю групи об'єктів близьких один до одного (що мають малі висоти) і далеко знаходяться один від одного (що мають великі висоти)
В)
.) Призначити необхідну кількість кластерів. У нашому випадку їх 3.
.) Будуємо дендрограмм по обраному кількості кластерів. Для цього вибираємо як методу кластеризації метод Group Average Method, так як у розглянутому випадку бажано, щоб алгоритм кластеризації добре працював з невеликою кількістю спостережень і був націлений на виділення кластерів з приблизно рівною кількістю елементів. Вибираємо метрику City Block. Всі інші параметри залишити в колишньому положенні. Результат представлений на малюнку 2.
Малюнок 2 - Метод Group Average Method
Далі будуємо дендрограмм. Для цього натискаємо на кнопку «Graphical options» меню вікна «Cluster Analysis», вибираємо відображення у вигляді дендрограмми (Dendrogram) і натискаємо ОК. Результат побудови дендрограмми, отображающей ієрархічну структуру групування об'єктів, представлений на малюнку 3.
На дендрограмі представлені три дерева. По вертикальній осі відкладені відстані, при яких відбуваються об'єднання кластерів для кожного кроку роботи агломеративного ієрархічного алгоритму. На горизонтальній осі розташовані номери об'єктів спостереження, скомбіновані у відповідності з послідовністю об'єднання.
Малюнок 3 - Дендрограмма
Ми можемо переглянути повний список всіх об'єктів, їхні імена та номери кластерів, в які входять зазначені об'єкти. Для цього натискаємо кнопку табличних опцій «Tabular Options» меню вікна «Cluster Analysis» і у відповідному вікні діалогу встановлюємо прапорець таблиці «Membership Table» (див. Малюнок 4).
Малюнок 4 - Таблиця «Membership Table»
Далі створюємо двомірну діаграму розсіювання - для цього натиснути на ...