по тому, наскільки кластери відповідають даним, і зовнішню - по тому, наскільки кластери відповідають інформації, що не враховуються при їх побудові, але відомої фахівцям - такого роду інформація зазвичай представляється у вигляді розбиття.
Серед різноманіття різних індексів, що використовуються для валідації кластерів, найбільш популярним є індекс - Девіса Болдіна, який можна визначити наступним чином. Охарактеризуємо відносний розкид у двох кластерах як полусумму середніх відстаней їх елементів до центрів, поділену на відстань між центрами. Охарактеризуємо розкид кластера максимальною величиною його відносного розкиду (щодо інших кластерів). Тоді індекс Девіса - Болдіна - не що інше, як середній розкид кластерів. [10] [11]
Результати всіх виконаних обчислень оператором В«Loop ParametersВ» представлені в чисельному і графічному вигляді.
В
Рис. 5.7. Обчислені значення індексів і параметрів
В
Рис. 5.8. Графік розподілу середньої відстані між кластерами
В
Рис. 5.9. Графік розподілу індексу Девіса - Болдіна
В
Рис. 5.10. Графік розподілу даних по кластерах
В
Рис. 5.11. Об'єднання попередніх трьох графіків
Провівши аналіз отриманих графіків, ми прийшли до висновку, що значення k = 6, є оптимальним числом для виділення кластерів у наших даних. Це підтверджується двома відомими емпіричними правилами вибору числа кластерів:
ВЁ Двох або трьох кластерів, як правило, недостатньо: кластеризація буде надто грубою, що приводить до втрати інформації про індивідуальні властивості об'єктів.
ВЁ Більше десяти кластерів не вкладається в В«число Міллера 7 В± 2В»: аналітику важко тримати в короткочасній пам'яті стільки кластерів. [4]
5.5 Представлення і аналіз результатів
Результатом кластерного аналізу є набір кластерів, що містять елементи вихідного безлічі. Кластерна модель повинна описувати як самі кластери, так і приналежність кожного об'єкта до одного з них. p align="justify"> Аналіз результатів кластеризації увазі вирішення таких питань: чи не є отримане розбиття на кластери випадковим; чи є розбиття надійним і стабільним на підвибірках даних; чи існує взаємозв'язок між результатами кластеризації та змінними, які не брали участь в процесі кластеризації ; чи можна інтерпретувати отримані результати кластеризації.
В
Рис. 5.12. Результати кластерного розбиття <...