Виконання кластерного аналізу
Етапи виконання кластерного аналізa:
1. Формулювання проблеми
2. Вибір міри відстані
3. Вибір методу кластеризації
4. Прийняття рішення про якість кластерів
5. Интерпритация і профелірованіе кластерів
6. Оцінка достовірності кластерів
3.1Формуліровка проблеми
Можливо, найважливіша частина формулювання проблеми кластеризації - це вибір змінних, на основі яких проводять кластеризацію. Включення навіть однієї або двох сторонніх (що не мають відношення до гуртування) змінних може спотворити результати кластеризації. Завдання полягає в тому, щоб обраний набір змінних зміг описати подібність між об'єктами з точки зору ознак, що мають ставлення до даної проблеми маркетингового дослідження. Змінні слід вибирати, виходячи з досвіду минулих досліджень, теорії або тестованої гіпотези. Експериментатор повинен мати інтуїцію і вміти робити висновки. <В
3.2 Вибір способу вимірювання відстані або міри схожості
Мета кластеризація - групування схожих об'єктів. Тому для того щоб оцінити, наскільки вони схожі або несхожі, необхідно використовувати якусь одиницю вимірювання. Найбільш поширений метод полягає в тому, щоб в якості такого запобіжного використовувати відстані між двома об'єктами. Об'єкти з меншими відстанями між собою більше схожі, ніж об'єкти з великими відстанями. Існує кілька способів обчислення відстані між двома об'єктами. p> Найбільш часто використовувана міра подібності-евклідова відстань або його квадрат. Евклідова метрика це квадратний корінь з суми квадратів різниць в значеннях для кожної змінної
Існують та інші способи вимірювання відстані. Відстань міських кварталів) (city-block, або Манхеттенський відстань (Manhattan distance) між двома об'єктами - Це сума абсолютних різниць у значеннях для кожної змінної. Відстань Чебишева (Chebychev distance) між двома об'єктами - це максимальна абсолютна різниця у значеннях для будь-якої змінної. Якщо змінні виміряні в різних одиницях, то одиниця вимірювання впливає на рішення кластеризації. У цих випадках перед кластеризацією респондентів ми повинні нормалізувати дані, змінивши шкалу вимірювання кожної змінної таким чином, щоб середнє дорівнювало нулю, а стандартне відхилення - одиниці. Хоча нормалізація може виключити вплив одиниці виміру, вона також зменшує відмінності між групами по змінним, які найкращим чином дискримінують (відрізняють) групи або кластери. Крім того, бажано видалити викиди (тобто випадки з нетиповими значеннями). Використання різних способів вимірювання відстані веде до різних результатів кластеризації. Отже, доцільно використовувати різні міри схожості і потім порівняти результати. Вибравши міру подібності, потім можна вибрати метод кластеризації. br/>
3.3 Вибір методу кластеризації
Методи кластеризації можуть бути ієрархічними і неієрархічному. Ієрархічна кластеризація (hierarchical clustering) характеризується побудовою ієрархічної, або деревовидної, структури.
Ієрархічні методи можуть бути агломеративного (об'єднавчими) і дівізівнимі. Агломеративного кластеризація (agglomerative clustering) починається з кожного об'єкта в окремому кластері. Кластери об'єднують, групуючи об'єкти щоразу у все більш і болеекрупние кластери. Цей процес продовжують доти, поки всі об'єкти не стануть членами одного єдиного кластеру.
Розділяє, або дівізівная, кластеризація (divisive clustering) починається з усіх об'єктів, згрупованих в єдиному кластері. Кластери ділять (розщеплюють) до тих пір, поки кожен об'єкт не опиниться в окремому кластері.
Зазвичай в маркетингових дослідженнях використовують агломеративні методи, наприклад методи зв'язку, дисперсійні і центроїдного методи. Методи зв'язку (linkage methods) включають метод одиночній зв'язку, метод повного зв'язку і метод середньої зв'язку. p> У основі методу одиночній зв'язку (single method) лежить мінімальна відстань, або правило найближчого сусіда. При формуванні кластеру першими об'єднують два об'єкта, відстань між якими мінімально. Далі визначають наступне по величиною найкоротшу відстань, і в кластер з першими двома об'єктами вводять третій об'єкт. На кожній стадії відстань між двома кластерами являє собою відстань між їх найближчими точками.
Метод повного зв'язку (complete linkage) аналогічний методу одиночної зв'язку, за винятком того, що в його основі лежить максимальне відстань між об'єктами, або правило далекого сусіда. У методі повного зв'язку відстань між двома кластерами обчислюють як відстань між двома їх самими вилученими крапками.
Метод середнього зв'язку (average linkage) діє аналогічно. Однак у цьому методі відстань між двома кластерами визначають як середнє знач...