від інших. Це саме те, що потрібно в моєму випадку, оскільки потрібно пояснити володіння ТДП різними характеристиками домогосподарств. Після ознайомлення з літературою, що описує даний метод, мені представляється можливим зробити наступні методичні зауваження, які стосуються мого завдання.
1. Регресійний аналіз призначений для моделювання поведінки однієї кількісної змінної від інших. Отже, індекс забезпеченості ТДП, що я будую, повинен бути кількісним (а не якісним: наприклад, висока/середня/низька забезпеченість).
2. Регресійний аналіз передбачає також використання числових змінних в якості незалежних (пояснюючих). Деякі показники, які є в базі даних (Наприклад, дохід) вже задовольняють цій вимозі. Але, наприклад, місцевість проживання, яку я теж хочу врахувати, так як міські домогосподарства зазвичай забезпечені краще сільських, є якісною. Тому для неї вимагається спеціальне перетворення, яке зробить цю змінну двійковій.
3. Регресійний аналіз є багатовимірним статистичним методом, тобто, враховує більше, ніж 1 взаємозв'язок між ознаками. Коефіцієнти регресійній моделі повинні інтерпретуватися за принципом В«за інших рівних умовах В», а не кожен окремо. Тобто, наприклад (забігаючи вперед), не можна говорити, що кожен додатковий член сім'ї забезпечує зростання індексу ТДП на +0,148. Це твердження вірне лише за інших рівних умов, тобто для сімей з таким же доходом, таким же числом джерел доходу і т.д.
4. Закладений в SPSS регресійний аналіз є В«лінійнимВ», що дозволяє визначити загальні закономірності, але може бути недостатньо точним, якщо суть взаємозв'язків між досліджуваними мною ознаками нелінійна. Це треба теж врахувати при підготовці висновків. Але нелінійні моделі, звичайно, досить складні. З іншого боку, якщо заглянути в наукові журнали, особливо зарубіжні, лінійний регресійний аналіз використовується часто-густо.
5. Якість моделі регресійного аналізу визначають за допомогою показника R2 (R-квадрат). Він варіюється від 0 до 1. В«0В» означає абсолютно даремну модель, В«1В» - ідеальну. Він же має інтерпретацію у відсотках пояснення поведінки залежної змінної. Наприклад, R2 = 0,09 означає, що модель пояснює поведінку залежною змінною на 9%. Треба, забігаючи вперед, сказати, що якість моїх моделей виявилося не дуже високим. Але це теж важливий результат. Я перевірила і довела, що індекс ТДП слабо залежить від тих змінних, які я вибрала.
6. Має сенс звертати на значимість коефіцієнтів регресії і значимість моделі в цілому (це графи Sig. в SPSS). Ці значення, навпаки, повинні бути маленькими. Вони ніби показують, надійність результатів. Тому що, наприклад, на маленькій вибірці результати можуть бути не дуже надійними.
7. Необхідно звернути увагу на наявності спеціальних кодів, які можуть міститися в змінних. Наприклад, в анкеті RLMS якщо респондент відмовлявся відповідати на питання про дохід, там вбивався код В«99999В». Важливо позбутися цих кодів перед початком моделювання, інакше SPSS вважатиме 999999 за величину доходу сім'ї респондента в рублях. Що, звичайно, спотворить результати. p> 8. Перед початком моделювання необхідно вивчити прості розподілу змінних (т.зв. Descriptive Statistics - описова статистика), яка скаже, які взагалі є значення у цих змінних, як часто вони зустрічаються, який там мінімум і максимум і інш. Усе це дозволить перевірити, чи підходять дані для аналізу.
Що стосується методичної літератури з регрессионному аналізу, то вона в надлишку мається на російському ринку. Взяти хоча б книгу Е. Сигела, де регресійний аналіз розглядається в одній із глав досить докладно. Цей вид аналізу розглядається в загальних рисах і в книгах з загальної теорії статистики, наприклад. Все це доводить, що даний вид аналізу дуже важливий і практично корисний. p> 3. Опис вихідних (вторинних) даних
Завдання есе припускають використання даних рівня домогосподарства для побудови моделей. Такі дані збираються Держкомстатом Росії в рамках вибіркових обстежень, а також у рамках спеціальних проектів (наприклад, В«Російський моніторинг економіки і здоров'я В», RLMS). Дане дослідження буде побудовано на даних вибіркового опитування RLMS. Вибірка репрезентує населення Росії. p> Обсяг вибірки 4711 домогосподарств. Дані збиралися по формалізованої анкеті (опитувальником). Дані утримують багату базу для різного моделювання. p> База даних, яка буде використовуватися для моделювання, містить багато змінних. Найбільш цікавлячими для нас є змінні, які дозволяють виявити наявність тих чи інших ТДП, такі як наявність ПК, пральної машини і т.д., а також змінні, які можуть впливати/визначати наявність ТДП у домогосподарств. Доходи, кількість осіб у сім'ї, число джерел домогосподарства і інш.
Не всі змінні будуть представлені в аналізі так, як вони представлені у вихідній базі даних. Справа в тому, що деякі змінні потребують перетворення, а деякі - в обчисленні заново....