ї функції, називається Методом найменших квадратів (МНК), або Least Squares Method (LS). p> "Найкраща" за МНК пряма лінія завжди існує, але навіть найкраща не завжди є досить хорошою. Якщо в дійсності залежність y = f (х) є, наприклад, квадратичної (як на малюнку 1 (b)), то її не зможе адекватно описати ніяка лінійна функція, хоча серед всіх таких функцій обов'язково знайдеться "найкраща". Якщо величини х і у взагалі не пов'язані (рис. 1 (с)), ми також завжди зможемо знайти "Найкращу" лінійну функцію у = а + b х для даної сукупності спостережень, але в цьому випадку конкретні значення а і Ь визначаються тільки випадковими відхиленнями змінних і самі будуть дуже сильно змінюватися для різних вибірок з однієї і тієї ж генеральної сукупності. Можливо, на рис. 1 (с) пряма 1 є найкращою серед усіх прямих ліній (в сенсі мінімального значення функції Q), але будь-яка інша пряма, що проходить через центральну точку "Хмари" (наприклад, лінія 2), ненабагато в цьому сенсі гірше, ніж пряма 1, і може стати найкращою в результаті невеликої зміни вибірки.
Розглянемо тепер задачу оцінки коефіцієнтів парної лінійної регресії більш формально. Припустимо, що зв'язок між х і. У лінійна: у = a + b х. Тут мається на увазі зв'язок між усіма можливими значеннями величин х та у, тобто для генеральної сукупності. Наявність випадкових відхилень, викликаних впливом на змінну у безлічі інших, неврахованих у нашому рівнянні факторів і помилок вимірювання, призведе до того, що зв'язок спостережуваних величин xi і yi придбає вид уi = a + bхi + єi,. Тут єi. - випадкові помилки (відхилення, обурення). Завдання полягає в наступному: по наявними даними спостережень {xi}, {уi} оцінити значення параметрів айв, забезпечують мінімум величини Q. Якби були відомі точні значення відхилень єi, то можна було б (у разі правильності передбачуваної лінійної формули) розрахувати значення параметрів a і b. Однак значення випадкових відхилень у вибірці невідомі, і за спостереженнями xi і уi можна отримати оцінки параметрів з і р, які самі є випадковими величинами, оскільки відповідають випадковою вибіркою. Нехай а - оцінка параметра a, b - оцінка параметра b. Тоді оцінене рівняння регресії матиме вигляд:
yi = а + bxi + еi,
де еi - спостережувані значення помилок єi.
Для оцінки параметрів a і b скористаємося МНК, який мінімізує суму квадратів відхилень фактичних значень уi від розрахункових. Мінімум шукається по змінним а і b. p> Для того, щоб отримані МНК оцінки а і b володіли бажаними властивостями, зробимо наступні передумови про відхилення єi:
1) величина єi є випадковою змінною;
2) математичне сподівання єi дорівнює нулю: М (єi) = 0;
3) дисперсія є постійна: D (єi) = D (єi) = s2 для всіх i, j;
4) значення єi незалежні між собою. Звідки випливає, у Зокрема, що
(2)
Відомо, що, якщо умови 1) -4) виконуються, то оцінки, зроблені за допомогою МНК, вол...