ДЕРЖАВНА ПОДАТКОВА СЛУЖБА УКРАЇНИ
НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ ДЕРЖАВНОЇ податкової служби України
Реферат
На тему: «Методи кластерізації: процедура Мак-Кіна, метод К-методів, сітчасті методи»
Ірпінь 2013
Вступ
Кластерний аналіз (англ. <# «14» src=«doc_zip1.jpg» /> - множини про «єктів, - множини номерів (імен, міток) кластерів <#« 22 »src= «doc_zip3.jpg» />. Є кінцева вібірка <# «20» src=«doc_zip4.jpg» />. Потрібно Розбита вібірку <# «13» src=«doc_zip5.jpg» />, а об »єкти різніх кластерів <#« 19 »src =« doc_zip6.jpg »/> пріпісується номер кластера <#« 13 »src =« doc_zip7.jpg »/>.
Алгоритм кластерізації - це функція, яка будь-якому об'єкту ставити у відповідність номер кластера <# «18» src=«doc_zip10.jpg» />. Множини в Деяк випадка відома заздалегідь, прот частіше ставитися Завдання візначіті оптімальне число кластерів <# «justify"> Процедура Мак-кіна
Серед ітераційніх методів найбільш популярним методом є метод k-середніх Мак-Кіна. На Відміну Від ієрархічніх методів у більшості реалізацій цього методу сам користувач винен Задати дані число кінцевіх кластерів, Яке зазвічай позначається як «k». Як и в ієрархічніх методах кластерізації, користувач при цьом может вібрато тієї чи Інший тип метрики. Різні алгоритми методу k-середніх відрізняються и способом Вибори початкових центрів задаються кластерів. У Деяк варіантах методу сам користувач может (або винен) Задати Такі Початкові точки, або вибрать їх з реальних СПОСТЕРЕЖЕННЯ, або задані координати ціх точок по Кожній Із змінніх. У других реалізаціях цього методу вибір заданого числа k початкових точок проводитися Випадкове чином, причому ЦІ Початкові точки (зерна кластерів) могут у подалі уточнюватіся в кілька етапів. Можна віділіті 4 основних етапи таких методів:
вібіраються або прізначаються k СПОСТЕРЕЖЕННЯ, Які будут Первін центрами кластерів;
при необхідності формуються проміжні кластери приписуванні шкірного спостереження до найближче завданні кластерних центрам;
после призначення всех СПОСТЕРЕЖЕННЯ окремим кластерам проводитися заміна Первін кластерних центрів на кластерні середні;
попередня ітерація повторюється до тих ПІР, поки Зміни координат кластерних центрів не стануть мінімальнімі.
У Деяк варіантах цього методу користувач может Задати числове значення крітерію, трактують як Мінімальна відстань для відбору новіх центрів кластерів. Спостереження НЕ розглядатіметься як претендент на новий центр кластера, ЯКЩО йо відстань до замінного центру кластера перевіщує завдання числа. Такий параметр в ряді програм назівається «радіусом». Крім цього параметра можливе Завдання и максимального числа ітерацій або Досягнення Певного, зазвічай й достатньо малого, числа, з яким порівнюється зміна відстані для всіх кластерних центрів. Цею параметр зазвічай назівається «конвергенцією», ТОМУ ЩО відображає збіжність ітераційного процеса кластерізації. Нижчих ми наведемо частина результатів, Які Отримані при вікорістанні методу k-середніх Мак-...