ї путівки.
Після вибору факторного простору, перейдемо до етапу II «Збір і попередня обробка вихідної інформації». У ході роботи нами була створена вибірка, об'ємом 50 турпакетів. Результати набору були представлені в таблиці (див. Додаток А).
Для розрахунків ми будемо використовувати прикладний програмний пакет для економетричного моделювання Gretl.
Проведемо обробку інформації за наступним алгоритмом:
Обчислення вибіркових характеристик;
Відсів грубих похибок;
Перевірка нормальності розподілу
Перетворення розподілу до нормального (при необхідності).
Цифрові мітки фіктивних змінних
Велика частина обраних факторних ознак - якісні. Тому для подальшого аналізу нам необхідно ввести їх цифрові позначення (див. Таблиця 1).
Таблиця 1 - Цифрові мітки фіктивних змінних
Ознака Значення МеткаКласс отеля2 * 23 * 34 * 45 * 5Тіп пиття в отелеBB 1HB 2FB 3Категорія номераstd; 0superior1suit2de luxe 3studio4Расположеніе готелю щодо моря1 лінія12 лінія 23 лінія3Курортная зонаСанур1Кута2Семіньяк 3Нуса-Дуа4Горящая путевкаПутевка з вильотом в серпні 0Путевка з вильотом в апреле1Пляж Муніціпальний0Собственний1
Приступимо до виконання алгоритму.
Обчислення вибіркових характеристик (див. Таблиця 2).
Таблиця 2 - Описова статистика
ПеременнаяСреднееМедіанаСт. откл.ВаріаціяКласс отеля3,2000 0,69985Тіп пітанія1,52000,73512Пляж0,220000Курорт2,42000,40975Тіп номера1,460001,4028Горящій тур0,4400000,50143Цена79650,677243,521885,50,274768ПеременнаяАсимметрияЭксцесс5% Perc.95% Perc.Цена0,219750-1,2928849722,3114940,
Звернемо увагу на значення деяких коефіцієнтів.
Медіана і середнє значення ціни близькі, що може свідчити про розподіл, близькому до нормального. Якщо уявити наші дані у вигляді стовпчастий діаграми (рис. 1), то можна подивитися співвідношення моди, медіани і середньої. Медіана знаходиться між модою і середньою величиною, причому ближче до середньої, ніж до моді, це також говорить про те, що розподіл за формою близько до нормального.
коефіцієнт асиметрії показує незначну правобічну асиметрію, коефіцієнт ексцесу - те, що графік розподілу буде «приплющеним».
Показник варіації ціни 27,4% прийнятний для обраної нами теми.
Про розподіл значень ціни також можна сказати, що 5% обраних путівок дешевше 49772 руб, а 95% - 114 940 руб.
Малюнок 1 - Співвідношення моди, медіани та середньої
Звернемо увагу на значення середньої бінарних змінних пляж і палаюча путівка, 0,22 і 0,44, відповідно, тобто тільки 22% готелів з нашої вибірки мають у власності пляж, і 44% путівок припускають виліт у квітні. На підставі значень можна припустити, що вплив змінної, відповідної ознакою пляж, буде незначним, а вплив змінної, яка описує час вильоту, буде значущим.
Приблизно дві третини нашої вибірки знаходяться в ціновій області 79650,6 ± 21885,5 руб.
Відсів грубих похибок
Перевіримо на аномальність найбільше і найменше значення ціни турпутівки, використовуючи статистику:
Обчислення зробимо за допомогою MS Office Excel.
Для Pmax=116319,0?=| 116319 - 79804 |/22173=1,675485492.
В якості критерію, з яким будемо зіставляти розрахункове значення?, виберемо? р. Обчислимо? р з допомогою таблиці критичних значень розподілу Стьюдента:
З таблиці розподілу Стьюдента вибираємо при n=48 і довірчої ймовірності (1-p) 95% і 99,9% критичні значення t5%=1,6772 і t0,1%=3,2669.
Вирахували і отримали? 5%=1,647007,? 0,1%=2,985493.
, 647007 lt ;? lt; 2,985493, отже значення не зізнається аномальним і не виключається з вибірки.
Перевіримо на аномальність мінімальне значення pmin=42922,0:
?=1,663374.
При t5%=1,6772, t0,1%=3,2689 статистики рівні
? 5%=1,647007,? 0,1%=2,985493. Таким чином,? 0,1% gt;? Gt; ? 5%, що означає відсутність похибки.
Перевірка розподілу на нормальність
Перевірка розподілу на нормальність - основний зміст попередньої обробки результатів спостережень.
Сформулюємо нуль-гіпотезу:
Н0: розподілу є нормальним, і альтернативну їй
Н1: розподіл не є норма...