змінну називають відгуком. Для отримання оцінок коефіцієнтів регресії мінімізується сума квадратів помилок регресії:
В
Рішення завдання зводиться до розв'язання системи лінійних рівнянь відносно. На підставі оцінок регресійних коефіцієнтів розраховуються значення Y:
В
Про якість отриманого рівняння регресії можна судити, дослідивши - оцінки випадкових помилок рівняння. Оцінка дисперсії випадкової помилки виходить за формулою
.
Величина S називається стандартною помилкою регресії. Чим менше величина S, тим краще рівняння регресії описує незалежну змінну Y.
Так як ми шукаємо оцінки, використовуючи випадкові дані, те вони, у свою чергу, будуть представляти випадкові величини. У зв'язку з цим виникають питання:
1. Чи існує регресійна залежність? Може бути, всі коефіцієнти регресії у генеральній сукупності дорівнюють нулю, оцінені їх значення ненульові тільки завдяки випадковим відхилень даних? p> 2. Чи істотно вплив на залежну окремих незалежних змінних?
У пакеті SPSS обчислюються статистики, що дозволяють вирішити ці завдання.
Для перевірки одночасного відмінності всіх коефіцієнтів регресії від нуля проведемо аналіз квадратичного розкиду значень залежної змінної щодо середнього. Його можна розкласти на дві суми наступним чином:
В
Цього розкладанні зазвичай позначають
- загальну суму квадратів відхилень;
- суму квадратів регресійних відхилень;
- розкид по лінії регресії.
Статистика в умовах гіпотези рівності нулю регресійних коефіцієнтів має розподіл Фішера і, природно, по цій статистиці перевіряють, чи є коефіцієнти B 1 , ..., B p одночасно нульовими. Якщо спостережувана значимість статистики Фішера мала (Наприклад, sig F = 0.003), то це означає, що дані розподілені уздовж лінії регресії; якщо велика (наприклад, Sign F = 0.5), то, отже, дані не пов'язані такої лінійної зв'язком.
При порівнянні якості регресії, оціненої за різними залежним змінним, корисно дослідити частки поясненої і непоясненної дисперсії. Ставлення SS reg /SS t являє собою оцінку частки непоясненної дисперсії. Частка дисперсії залежної змінної, поясненої рівнянням регресії, називається коефіцієнтом детермінації. У двовимірному випадку коефіцієнт детермінації збігається з квадратом коефіцієнта кореляції.
Корінь з коефіцієнта детермінації називається коефіцієнтом множинної кореляції (він є коефіцієнтом кореляції між y і). Оцінкою коефіцієнта детермінації () є. Відповідно, величина R є оцінкою коефіцієнта множинної кореляції. Варто мати на увазі, що було зміщення оцінкою. Корегована оцінка коефіцієнта детермінації виходить за формулою:
В
У цій формулі використовуються незсунені оцінки дисперсій регресійного залишку і залежною змінної. p> Якщо змінні X незалежні між собою, то величина коефіцієнта b i інтерпретується як приріст y, якщо X i збільшити на одиницю.
Чи можна за абсолютною величиною коефіцієнта судити про роль відповідного йому чинника в формуванні залежної змінної? Тобто, якщо b 1 > b 2 , чи буде X 1 важливіше X 2 ?
Абсолютні значення коефіцієнтів не дозволяють зробити такий висновок. Однак при невеликій взаємозв'язку між змінними X, якщо стандартизувати змінні та розрахувати рівняння регресії для стандартизованих змінних, то оцінки коефіцієнтів регресії дозволять по їх абсолютній величиною судити про те, який аргумент в більшій мірі впливає на функцію.
Дисперсія коефіцієнта дозволяє отримати статистику для перевірки його значущості. Ця статистика має розподіл Стьюдента. У видачі пакета друкується спостерігається її двостороння значимість - ймовірність випадково при нульовому регресійному коефіцієнті B k отримати значення статистики, більша за абсолютною величиною, ніж вибіркове.
Побудуємо регресію Y на фактори Z1-Z20 за методом лінійної регресії (табл.14.)
Таблиця 14. Оцінка лінійної імовірнісної моделі
В
У нашому випадку прогнозні значення Yf вказують на ймовірність повернення (неповернення) кредиту. Побудуємо графік прогнозних значень (рис.3.) <В
Рис.3. графік прогнознихзначень
Можна бачити, що прогнозні значення можуть знаходитися поза інтервалу [0,1] - це головний недолік LP моделі. Тому приступимо до побудови моделей, позбавлених цих недоліків. br/>
2.8. Логістична регресія
Будемо вважати, що подія в даних фіксується дихотомічної змінної (0 не відбулося подія, 1 - відбулося). Для побудови моделі передбачення можна було б побудувати, наприклад, лінійне регресійне рівняння з залежною дихотомічної змінної Y, але воно буде не адекватно поставленої задачі, так як у класичному рівнянні регресії передбачається, що Y - безперервна змінна. З цією метою розглядається логістич...