Введення
Існуючі між явищами форми і види зв'язків вельми різноманітні по своїй класифікації. Предметом статистики lt; # justify gt; 1. Поняття кореляційно-регресійного аналізу
Класична нормальна лінійна регресійна модель Узагальненням лінійної регресійної моделі з однією пояснюватиме змінної є лінійна регресійна модель з k-пояснюючими змінними (модель множинної регресії):
де - параметри моделі ; - пояснюючі змінні ;
- випадковий член .
Випадковий член е задовольняє тим же передумовам (умови Гаусса-Маркова), що і в моделі з парної регресією, але на пояснюючі змінні накладено умова: випадкові члени в будь-якому спостереженні повинні бути статистично незалежні від пояснюють змінних.
При виконанні умов Гаусса-Маркова модель називається класичною нормальної лінійної регресійної моделлю.
Крім того, передбачається, що пояснюючі змінні некореліровани один з одним. На основі п спостережень оцінюється вибіркове рівняння регресії:
де оцінки параметрів
Для оцінки параметрів регресії використовується метод найменших квадратів, відповідно до якого мінімізується сума квадратів залишків:
Необхідною умовою її мінімуму є рівність нулю всіх її частинах похідних по .
У результаті приходимо до системи з (до + 1) лінійних рівнянь з (до + 1) невідомими, званою системою нормальних рівнянь. Її рішення в явному вигляді зазвичай записується в матричній формі, інакше воно стає занадто громіздким. Оцінки параметрів моделі та їх теоретичні дисперсії в матричної формі визначаються виразами:
де b - вектор з компонентами
Х - матриця значень пояснюють змінних .
Y - вектор значень залежної змінної ,
- дисперсія випадкового члена .
Незміщеність оцінкою є величина (залишкова дисперсія)
Величина S називається стандартною помилкою регресії. Замінюючи в теоретичних дисперсіях невідому дисперсію її оцінкою і витягуючи квадратний корінь, одержимо стандартні помилки коефіцієнтів регресії:
Якщо передумови щодо випадкового члена е виконуються, оцінки параметрів множинної регресії є незміщеними, заможними і ефективними. Надалі визначення коефіцієнтів регресії і їх стандартних помилок проводиться без використання матричної алгебри інші показники обчислюються автоматично і одночасно. При цьому інтерпретація одержуваних показників так само, як в парній регресії з урахуванням числа ступенів свободи.
мультиколінеарності - це коррелированность двох або не- скільки пояснюють змінних в рівнянні регресії. При наявності мультиколінеарності МНК-оцінки формально існують, але мають ряд недоліків:
невелика зміна вихідних даних призводить до істотної зміни оцінок коефіцієнтів регресії;
оцінки коефіцієнтів регресії мають великі стандартні помилки, малу значимість, в той час як модель в цілому є значущою (високе значення )
Якщо при оцінці рівняння регресії кілька факторів виявилися незначущі, то потрібно з'ясувати, чи немає серед них сильно корельованих між собою. Для відбору чинників в модель регресії і оцінки їх мультиколінеарності аналізують кореляційну матрицю. Загальний вигляд кореляційної матриці, складеної з змінних y, наведено в наступній таблиці:
y y1 1 січня 1
При наявності кореляції один з пари пов'язаних між собою факторів виключається. Якщо статистично незначущий лише один фактор, то він повинен бути виключений. У модель регресії включаються ті фактори, які більш сильно пов'язані з залежною змінною, але слабо пов'язані з іншими факторами.
Кореляційний аналіз займається ступенем зв'язку між двома змінними, x і y .
Спочатку передбачається, що як x , так і y кількісні, наприклад ріст і маса тіла.
Зазвичай на графіку змінну x розташовують на горизонтальній осі, а у - на вертикальній.