/p>
4) вибір кластерів має бути здійснений таким способом, який мінімізує зростання вибіркової помилки (останній процес, у свою чергу, є неминучим наслідком кластеризації).
Для того щоб усвідомити, як саме кластерна процедура впливає на зростання вибіркової помилки, розглянемо її на простому прикладі. Припустимо, ми вивчаємо працю та зайнятість жителів невеликого сільського району. Для того щоб скласти повний список-основу для випадкової вибірки, нам довелося б попередньо відвідати всі сільські ради, а в деяких випадках - і вельми віддалені села. Маючи обмеженими ресурсами, ми вирішуємо використовувати наявну в нашому розпорядженні карту району, на якій відзначені всі населені пункти, включаючи самі невеликі хутори. Відома і чисельність населення для кожного пункту. Природними кордонами кластерів-поселень є шосе і польові дороги. Склавши список усіх 40 сіл і хуторів, ми можемо тепер без праці здійснити просту випадкову вибірку кластерів. Для окремого поселення ймовірність попадання у вибірку складе 1 / 40 . Якщо, наприклад, ми збираємося опитати 200 чоловік, нам, швидше за все, буде потрібно відібрати 1-2 кластера-поселення. Відзначимо тут, що природні відмінності у величині кластерів ніяк не впливають на процедуру кластерного відбору.
Що при цьому відбувається з вибіркової помилкою та, отже, з одержуваними в нашому дослідженні статистичними параметрами генеральної сукупності сільського населення району (тобто з оцінками віку, доходу тощо)? Щоб відповісти на це питання, ми повинні ввести ще одне статистичне поняття В«незалежних спостереженьВ» (ступенів свободи).
Припустимо, ми хочемо оцінити співвідношення працюючих і пенсіонерів в обстежуваному нами районі. Ми відібрали, умовно, три села по 30 домоволодінь кожна (разом 90 домоволодінь). Проте в ході опитування з'ясовується, що в двох селах, що не входять ні в один сільгоспоб'єднання або кооператив, живуть виключно старики-пенсіонери, а в одній, побудованої недавно для переселенців з Середньої Азії, живуть тільки молоді сім'ї з дітьми. Таким чином, кожне село є населеної або тільки працюючими сімейними парами, або виключно В«пенсіонерськоїВ». У результаті ми можемо заздалегідь передбачити результат обстеження кожного села (кластера), відвідавши лише один будинок. Якщо в першому будинку інтерв'юер виявить подружжя пенсіонерів, у всіх інших будинках теж будуть жити пенсіонери. Якщо в першому будинку живуть люди працездатного віку, відвідування інших 29 домоволодінь призведе до того ж результату. Фактично для кожного села ми будемо розташовувати одним незалежним наглядом і, відвідавши 90 сімей в трьох селах, отримаємо лише три незалежних, інформативних спостереження щодо розподілу працюючих і пенсіонерів у вибірці. Відповідно наші оцінки величини даного співвідношення у генеральній сукупності виявляться більш неточними, ніж у випадку 90 незалежних спостережень. Причина виникає помилки полягає в тому, що використані вами кластери (села) виявилися гомогенними, однорідними за досліджуваного ознакою трудової зайнятості, хоча за іншими ознаками, наприклад, по політичній активності, вони цілком можуть бути гетерогенними, неоднорідними. У принципі можна показати, що зростання вибіркової помилки для кластерної вибірки (в порівнянні з простою випадковою) є функцією двох невирішених - величини кластерів і гомогенності досліджуваної ознаки всередині кожного кластера.
Ясно, що оцінка гомогенності часто стає важливою практичної завданням у плануванні кластерної вибірки. Основна проблема тут полягає в тому, що відповідними даними про розподіл ознак всередині кластерів дослідник має після завершення власне польовий стадії. Практично при проектуванні вибірки зазвичай грунтуються на вже існуючих даних попередніх досліджень, переписів тощо
Таблиця 2
Значення заходів гомогенності р для кластерів, що складаються з домоволодінь (для основних соціально-демографічних параметрів)
Параметр
Значення р для кластера, що має середній розмір п
п = 3
п = 9
n = 27
n = 62
Частка домоволодінь: - перебувають в особистій власності;
, 170
, 171
, 161
, 096
- найманих, з низькою квартплатою;
, 235
, 169
, 107
, 062
- найманих, з високою квартплатою;
, 430
, 349
, 243
, 112