Лабораторна робота №8
Побудова класичної лінійної регресії
Цілі та завдання:
Розрахувати описові статистики, що характеризують досліджувані дані;
Визначити парні коефіцієнти кореляції і на їх основі виявити фактори, що найбільший вплив на результативний показник;
Оцінити регресійне рівняння наявними факторами. Проаналізувати множинні коефіцієнти кореляції і детермінації, за отриманою моделі;
Оцінити якість моделі на основі t-статистики Стьюдента і F-статистики Фішера.
Вихідні дані:
регресія кореляція детермінація стьюдент
Хід роботи:
Розрахунок описових (дескриптивних) статистик.
Для розрахунку описових статистик необхідно: Statistics - Basic Statistics/Tables - Descriptive statistics - Advanced (Valid N, Mean. Standard Deviation, Skewness, Kurtosis, Minimum amp; Maximum) - Summary.
Для симетричного розподілу, також і для нормального, асиметрія Skewness дорівнює нулю. У даному прикладі для всіх змінних значення асиметрії близько до нуля. Це вказує на те, що розподілу змінних Y, X1 і X2 близькі до симетричним.
Якщо ексцес Kurtosis більше нуля, то розподіл островершинним щодо нормального. Якщо ексцес менше нуля, то розподіл «туповершінное» щодо нормального. У нашому випадку розподіл всіх трьох змінних туповершінное.
Більш точну відповідь про нормальність розподілу можна отримати, якщо звернутися до вкладки Normally у вікні Descriptive statistics.
Вікно установки обчислення характеристики нормальності розподілу:
Після вибору змінних в Frequency tables і натиснення кнопки Summary отримаємо наступні дані:
Щодо Y:
Щодо X1:
Щодо X2:
Побудова класичної лінійної регресії
Для побудови необхідно: Statistics - Multiple Regression - Variables (Y - Dependent var., X1, X2 - Independent var.) - Review descriptive statistics, correlation matrix - OK - Advanced - Correlations.
У результаті отримали матрицю, що містить значення парних коефіцієнтів кореляції:
Також можна представити отримані результати в графічному вигляді, для цього вибираємо кнопку Matrix plot of correlations:
Повернемося в попереднє вікно і знімемо галочку з пункту Review descriptive statistics, correlation matrix і, натиснувши кнопку OK, перейдемо в наступне вікно, що містить результати побудови моделі:
Вибираємо кнопку Summary: Regression results після чого будуть представлені дві таблиці, що містять оціночні параметри моделі і основні показники адекватності побудови регресії.
Чим ближче значення множинний коефіцієнт кореляції R до 1, тим більшу одночасне вплив роблять незалежні змінні. В даному випадку множинний коефіцієнт кореляції отримано рівним 0,248, що показує несильну зв'язок між варіацією результативного показника Y і варіацією факторних ознак X1 і X2.
Множинний коефіцієнт детермінації R ^ 2 вимірює частку повної варіації змінної Y, пояснюється множинної регресією. Якщо значення дорівнює 1, то між змінними існує точна лінійна зв'язок; якщо дорівнює 0, то статистична лінійна зв'язок відсутній. Згідно з даними таблиці, R ^ 2=0,061 свідчить, що всього 6% варіації змінної Y пояснюється факторами X1, X2.
Скоригований коефіцієнт множинної детермінації неубутна функція від кількості факторів, що входять в модель. Даний коефіцієнт кореляції може бути використаний для вибору кращої моделі. (2, 42) - F-статистика Фішера, служить для перевірки моделі на адекватність. Для цього використовується значення ймовірність p, якщо це значення ймовірності менше прийнятого значення a, наприклад, 0,5, то нульова гіпотеза відкидається. Так, в розглянутому прикладі p=0,26, отже, нульова гіпотеза про рівність нулю всіх коефіцієнтів регресії відкидається.
Розглянемо результати оцінки параметрів рівняння регресії по стовпцях. У першому стовпці перераховані члени регресійного рівняння, при цьому Intercept - це вільний член рівняння.
У другому стовпці містяться бета-коефіцієнти, які є абстрактними величинами і вказують на скільки середньоквадратичних відхилень збільшиться залежна змінна при зміні відповідного незалежної змі...