"> Метод ідентичний методу незваженого попарного середнього, за винятком того, що при обчисленнях розмір відповідних кластерів (тобто число об'єктів, що містяться в них) використовується як вагового коефіцієнта. Тому запропонований метод повинен бути використаний (швидше навіть, ніж попередній), коли передбачаються нерівні розміри кластерів.
невиважені центроїдного метод
У цьому методі відстань між двома кластерами визначається як відстань між їх центрами тяжкості.
Зважений центроїдного метод (медіана)
той метод ідентичний попередньому, за винятком того, що при обчисленнях використовуються ваги для обліку різниці між розмірами кластерів (тобто числами об'єктів в них). Тому, якщо є (або підозрюються) значні відмінності в розмірах кластерів, цей метод виявляється переважно попереднього.
Метод Варда
Цей метод відрізняється від усіх інших методів, оскільки він використовує методи дисперсійного аналізу для оцінки відстаней між кластерами. Метод мінімізує суму квадратів (SS) для будь-яких двох (гіпотетичних) кластерів, які можуть бути сформовані на кожному кроці. Подробиці можна знайти в роботі Варда (Ward, 1963). В цілому метод представляється дуже ефективним, однак він прагне створювати кластери малого розміру.
2.1.2 Метод K середніх
Загальна логіка. Припустимо, ви вже маєте гіпотези щодо числа кластерів (за спостереженнями або за змінним). Ви можете вказати системі-утворити рівно три кластери так, щоб вони були настільки різні, наскільки це можливо. Це саме той тип завдань, які вирішує алгоритм <# «justify"> Змінні, які стосуються задоволеності на роботі, більш корельовані між собою, а змінні, які стосуються задоволеності будинком, також більш корельовані між собою. Кореляції між цими двома типами змінних (змінні, пов'язані з задоволеністю на роботі, і змінні, пов'язані з задоволеністю будинком) порівняно малі. Тому здається правдоподібним, що є два відносно незалежних фактора (два типи факторів), відображених у кореляційної матриці: один відноситься до задоволеності на роботі, а інший до задоволеності домашньої життям.
Факторні навантаження
Розглянемо кореляції між змінними і двома факторами (або «новими» змінними), як вони були виділені за умовчанням; ці кореляції називаються факторними навантаженнями.
Табл. 2 - Факторні навантаження
STATISTICA ФАКТОРНИЙ АНАЛІЗФакторние навантаження (Немає обертання) Головні компоненти ПеременнаяФактор 1Фактор 2РАБОТА_1 РАБОТА_2 РАБОТА_3 ДОМ_1 ДОМ_2 ДОМ_3.654384.715256.741688.634120.706267.707446.564143.541444.508212 - .563123 - .572658 - .525602 Загальна дисперсія Частка загальної дисп. 2.891313.4818851.791000.298500
Мабуть, перший фактор більш корелює з змінними, ніж другий. Це слід було очікувати, тому що, як було сказано вище, фактори виділяються послідовно і містять все менше і менше загальної дисперсії.
Обертання факторної структури
Ви можете зобразити факторні навантаження у вигляді діаграми розсіювання <file:///C:Documents%20and%20SettingsМаринкаРабочий%20столglossarygloss_2m.html>. На цій діаграмі кожна змінна представлена ??точкою. Можна повернути осі в будь-якому напрямку без зміни ...