d>
Середня кількість мешканців
, 230
, 186
, 142
, 066
Частка серед мешканців:
- білих чоловіків
, 100
, 088
, 077
, 058
- безробітних чоловіків
, 060
, 070
, 045
, 034
- чоловіків у віці 25-34 років
, 045
, 026
, 018
, 008
Міра гомогенності р веде себе так само, як відповідний коефіцієнт кореляції. Величина р - це кореляція між значеннями ознаки для всіх можливих парних поєднань елементів, що входять в кластер. Ця величина зазвичай позитивна і зростає з ростом гомогенності елементів усередині кластеру. Якщо спостереження всередині кластера абсолютно незалежні (як у прикладі випадкового розподілу між різними кластерами), то р = 0. При використанні територіальної кластерної вибірки міського населення, наприклад при відборі кварталів або багатоповерхових будинків, р для ознак економічного статусу може бути вельми високим через В«пороговихВ» ефектів: у престижному кооперативному будинку малоймовірно зустріти сім'ї з дуже низькими доходами (верхній поріг) і, навпаки, лише деякі заможні люди мешкають у комуналках, подібно до героя В«Золотого телятиВ» Олександру Івановичу Корейко (нижній поріг). p> Орієнтовна уявлення про типові значеннях р і їх зміну для кластерів різної величини для загальнонаціонального вибіркового дослідження дає табл. 2. У таблиці показані величини р для мають різні розміри кластерів, складених з сусідніх міських домоволодінь (квартир і будинків). Дані таблиці засновані на вибірці міського населення США (N> 100000). p> Ще однією важливою практичною проблемою в плануванні кластерної або стратифікованої вибірки є порівняння ефективності витрат на дослідження при різних середньому розмірі кластера та кількості кластерів (Зауважимо, що й кластери, і страти часто позначають загальним терміном - В«первинні одиниці відбору В»). Функція, що описує залежність витрат від перерахованих вище двох змінних, виглядає так:
З t = Ас 1 + пс 2 ,
де C t - загальна вартість дослідження,
а - кількість В«первинних одиниць відборуВ»,
з 1 - середні витрати на обстеження первинної одиниці відбору, плановані для даного дослідження,
n - загальний розмір планованої вибірки,
з 2 - середні витрати на проведення одного інтерв'ю.
Подальшим узагальненням ідей випадкового відбору з субпопуляцій і природних угруповань, що лежать в основі, відповідно стратифікованій і кластерної вибірок, є багатофазна (багатоступенева) вибірка. Побудова такої вибірки являє собою досить складну статистичну завдання, підходи до вирішення якої ми розглянемо лише в самому узагальненому вигляді.
У простому випадку багатофазна вибірка складається з двох фаз випадкового відбору. На першій - як при кластерному відборі - вибираються В«Первинні одиниці відборуВ», наприклад, райони, виборчі дільниці, підприємства. На другій фазі проводиться випадковий відбір одиничних членів генеральної сукупності - окремих респондентів, сімей і т. п. Так як В«первинні одиниці відбору В»можуть істотно відрізнятися за величиною (як, наприклад, відрізняються один від одного міські квартири або будинку з різною чисельністю проживаючих), то результатом першої фази може стати нерівна ймовірність попадання у вибірку для членів генеральної сукупності, що відносяться до різних В«Первинним одиницям відборуВ». У цьому випадку дослідник має можливість вирівнювання ймовірностей на наступних фазах (наприклад, з В«первинної одиниці відбору В», де проживає 1000 сімей, він вибере 10, а зВ« первинної одиниці В», де проживає 500 сімей, буде відібрано 20).
Розглянемо багатофазну процедуру на простому прикладі з однаковою ймовірністю відбору.
Нехай нам необхідно здійснити вибірку розміром 2000 осіб з генеральної сукупності населення великого міста, де проживає 4 млн. чоловік. Кожна В«первинна одиниця відбору В»- міський квартал - містить 1000 одиниць (тобто окремих респондентів). На першій фазі ми відберемо з 100000 кварталів (В«первинних одиниць відбору В») 400, так що для кожного кварталу ймовірність попадання у вибірку складе:
400:100000 = 0,004.
На наступні...