В
і перший доданок не залежить від a k .
Матриця перетворення даних до головних компонентів будується з векторів В«AВ» головних компонент:
В
Тут a i - ортонормированного вектори-стовпці головних компонент, розташовані в порядку убування власних значень, верхній індекс T означає транспонування. Матриця A є ортогональною: AA T = 1.
Після перетворення більша частина варіації даних буде зосереджена в перших координатах, що дає можливість відкинути залишилися і розглянути простір зменшеної розмірності.
Найстарішим методом відбору головних компонент є правило Кайзера , за яким значимі ті головні компоненти, для яких
В
тобто ? i перевершує середнє значення ? (середню вибіркову дисперсію координат вектора даних). Правило Кайзера добре працює в простих випадках, коли є декілька головних компонент з ? i , набагато переважаючими середнє значення, а інші власні числа менше нього. У складніших випадках воно може давати занадто багато значущих головних компонент. Якщо дані нормовані на одиничну вибіркову дисперсію по осях, то правило Кайзера набуває особливо простий вигляд: значущі тільки ті головні компоненти, для яких ? i > 1.
Одним з найбільш популярних евристичних підходів до оцінки числа необхідних головних компонент є правило зламаною тростини , коли набір нормованих на одиничну суму власних чисел ( , i = 1, ... n) порівнюється з розподілом довжин уламків тростини одиничної довжини, зламаною в n? 1-й випадково вибраної точці (точки розлому вибираються незалежно і равнораспределени по довжині тростини). Якщо L i (i = 1, ... n) - довжини отриманих шматків тростини, занумерувати спадний довжини: , тоді математичне сподівання L i :
В
Розберемо приклад, що полягає в оцінці числа головних компонент за правилом зламаною тростини в розмірності 5.
<# "justify"> За правилом зламаною тростини k-й власний вектор (у порядку убування власних чисел ?