. При цьому, якщо фактичне значення F-критерію більше табличного Fфакт gt; Fтеор, то визнається статистична значимість рівняння в цілому. Для парної лінійної регресії m=1, тому:
Ця формула в загальному вигляді може виглядати так:
Ставлення поясненої частини дисперсії змінної (у) до загальної дисперсії називають коефіцієнтом детермінації і використовують для характеристики якості рівняння регресії або відповідної моделі зв'язку. Співвідношення між поясненої і непоясненної частинами загальної дисперсії можна представити в альтернативному варіанті:
Коефіцієнт детермінації R2 приймає значення в діапазоні від нуля до одиниці 0? R2? 1. Коефіцієнт детермінації R2 показує, яка частина дисперсії результативної ознаки (y) пояснена рівнянням регресії. Чим більше R2, тим більша частина дисперсії результативної ознаки (y) пояснюється рівнянням регресії і тим краще рівняння регресії описує вихідні дані. При відсутності залежності між (у) і (x) коефіцієнт детермінації R2 буде близький до нуля. Таким чином, коефіцієнт детермінації R2 може застосовуватися для оцінки якості (точності) рівняння регресії. Значення R-квадрата є індикатором ступеня підгонки моделі до даних (значення R-квадрата близьке до 1.0 показує, що модель пояснює майже всю мінливість відповідних змінних). Щоб визначити, при яких значеннях R2 рівняння регресії слід вважати статистично значущим, що, у свою чергу, робить необгрунтованим його використання в аналізі, розраховується F-критерій Фішера: Fфакт gt; Fтеор - робимо висновок про статистичної значущості рівняння регресії. Величина F-критерію пов'язана з коефіцієнтом детермінації R2xy (r2xy) і її можна розрахувати за наступною формулою:
Або при оцінці значущості індексу детермінації (аналог коефіцієнта детермінації):
де: i2 - індекс (коефіцієнт) детермінації, який розраховується:
Використання коефіцієнта множинної детермінації R2 для оцінки якості моделі, володіє тим недоліком, що включення в модель нового фактора (навіть несуттєвого) автоматично збільшує величину R2. Тому, при великій кількості факторів, краще використовувати, так званий, покращений, скоригований коефіцієнт множинної детермінації R2, який визначається співвідношенням:
де p - число факторів в рівнянні регресії, n - число спостережень. Чим більше величина p, тим сильніше відмінності між множинним коефіцієнтом детермінації R2і скоригованими R2. При використанні скоригованого R2, для оцінки доцільності включення фактора в рівняння регресії, слід враховувати, що збільшення його величини (значення), при включенні нового фактора, не обов'язково свідчить про його значущості, оскільки значення збільшується завжди, коли t-статистика більше одиниці ( | t | gt; 1). При заданому обсязі спостережень і за інших рівних умов, зі збільшенням числа незалежних змінних (параметрів), скоригований коефіцієнт множинної детермінації убуває. При невеликому числі спостережень, скоригована величина коефіцієнта множинної детермінації R2 має тенденцію переоцінювати частку варіації результативної ознаки, пов'язану з впливом факторів, включених в регресійну модель. Низьке значення коефіцієнта множинної кореляції і коефіцієнта множинної детермінації R2 може бути обумовлено наступними причинами:
· в регресійну модель не включені істотні фактори;
· невірно обрана форма аналітичної залежності, яка нереально відображає співвідношення між змінними, включеними в модель.
Слід також звернути увагу на важливість аналізу залишків. Залишок являє собою відхилення фактичного значення залежної змінної від значення, отриманого розрахунковим шляхом. При побудові рівняння регресії, ми можемо розбити значення (у) в кожному спостереженні на 2 складові:
Звідси:
Якщо? i=0, то для всіх спостережень фактичні значення залежної змінної збігаються з розрахунковими (теоретичними) значеннями. Графічно це означає, що теоретична лінія регресії (лінія, побудована за функції у=а0 + а1х) проходить через всі точки кореляційного поля, що можливо тільки при строго функціонального зв'язку. Отже, результативний ознака (у) повністю обумовлений впливом фактора (х). На практиці, як правило, має місце деяке розсіювання точок кореляційного поля щодо теоретичної лінії регресії, тобто відхилення емпіричних даних від теоретичних? i? 0. Величина цих відхилень і лежить в основі розрахунку показників якості (адекватності) рівняння.
Більшість припущень множинної регресії не можна в точності перевірити, однак можна виявити відхилення від цих припущень. Зокрема, викиди (екстремальні спостереження) можуть викликати серйозний...