, що не адекватно. Можлива причина - мультиколінеарності факторів, квлюченних в модель.
Пункт 3
Побудова моделі шляхом включення - це покроковий відбір змінних.
На 1-му кроці (k=1) за найбільшим значенням коефіцієнта кореляції з y знайдемо найбільш інформативну змінну - це x1.
Так як при k=1 величина R2 збігається з квадратом звичайного (парного) коефіцієнта кореляції R2=r2 (y, x), з матриці кореляцій знаходимо найбільший коефіцієнт детермінації для набору однофакторних регресійних моделей:
Аналогічний результат можна отримати послідовно ладу рівняння регресії для залежностей y-xj за допомогою табличній функції ЛИНЕЙН.
Рис. 4 Знаходження інформативне змінної за допомогою функції ЛИНЕЙН
Таким чином, у класі однофакторних регресійних моделей найбільш інформативним предиктором (провісником) є x1 - загальна площа квартири. Включимо цю змінну в вибудовуємо методом включення модель.
Обчислимо скоригований коефіцієнт детермінації:
=0.8701,
де k-кількість факторів.
-й крок (k=2). Серед різноманітних пар (х1, хj), j=2, 3, 4, 5, вибирається найбільш інформативна пара:
Послідовно застосовуємо табличну функцію ЛИНЕЙН до різних парам:
(х1, х2)=0.8684, (х1, х3)=0.8709,
(х1, х4)=0.8681, (х1, х5)=0.9147.
Очевидно, що найбільш інформативною парою є (х1, х5), яка дає
З включенням параметра х5 коефіцієнт детермінації виріс, отже, це правильне рішення. Лінійне рівняння з урахуванням факторів х1 і х5 має вигляд:
(х1, х5)=1,9787 + 0.4971 х1 - 0,4286 х5
Використовуючи надбудову «Регресія», проведемо аналіз значущості знайдених коефіцієнтів.
Рис. 5 Фрагмент звіту регресії з двох змінним
Стовпець t-статистика містить спостережувані значення t-критерію Стьюдента. Стовпець «P-значення» використовується для перевірки гіпотези (про незначущості i-го коефіцієнта регресії) за допомогою критерію Стьюдента. Стовпець містить ймовірності того, що в силу випадкових причин приймає це або більше значення, хоча коефіцієнт регресії bi=0. «P-значення» порівнюється з обраним рівнем значущості?, Якщо «P-значення» більше або дорівнює?, То гіпотеза підтверджується і коефіцієнт незначну, в протилежному випадку коефіцієнт істотно відмінний від 0, тобто значущий. Розглянувши стовпець «P-значення», приходимо до висновку: два коефіцієнти при незалежних змінних (х1, х5) відрізняються від нуля при рівні значущості a=0.05. Коефіцієнт «Y-перетин» (1,9787) не означає, і його слід виключити з рівняння. Таким чином, рівняння фактично має вигляд:
(х1, х5)=0.4971 х1 - 0,4286 х5
-й крок (k=3). Спробуємо додати третю змінну в наше рівняння регресії. Серед усіляких трійок (х1, х5, хj), j=2, 3, 4, вибираємо аналогічно найбільш інформативну: (х1, х5, х2), яка дає (3)=0.9139, що менше, ніж (2)=0.9147.
Рис. 6 Застосування функції ЛИНЕЙН для знаходження третього чинника
Отже, третю змінну в модель включати недоцільно, тому вона знижує значення. Цей же результат отримаємо, застосувавши надбудову «Регресія» Відзначимо, що коефіцієнт при x2 не означає при рівні значущості 0,05.
Рис. 7 Фрагмент звіту регресії за трьома змінним
Рівняння
(х1, х5)=0.4971 х1 - 0,4286 х5
адекватно описує залежність вартості квартири від впливають на неї факторів, і може бути використане для аналізу і прогнозу. Всі коефіцієнти при невідомих в ньому значущі.
Пункт 4
Для застосування методу найменших квадратів потрібно, щоб дисперсія залишків була гомоскедастичність. Це означає, що для кожного значення фактора залишки мають однакову дисперсію. Якщо ця умова не дотримується, то має місце гетероскедастичності.
Розглянемо графіки залишків для змінних x1 і x5, отримані при побудові рівняння регресії за допомогою надбудови «Аналіз даних - Регресія» (рис.8).
Візуальний аналіз залишків (помилок апроксимації) за графіками не може однозначно виключити наявність гетероскедастичності.
Рис. 8 Графіки залишків
Порушення гомоскедастичність може бути виявлено за допомогою методу (тесту) Гельфельда-Квандта. Попередньо всі спостереження впорядкуємо по одному з факторів, наприклад, по х1.
Для застосування тесту Гельфельда-Квандта необхідно визначити число виключаються центральних спостережень С. З експериментальних розрахунків, проведених авторами методу, рекомендовано при n=30 приймати C=8, а при n=60, - відповідно, С =16.
У завданні при n=69 було виключено 17 спостережень (С=17). Тоді в кожній групі буде по 26 спостережень
Рис. 9 Організа...