нак на практиці це не завжди вірно. Спостерігаються відхилення як односторонні, так і двосторонні. Під уникнути спотворення значень характеристик розподілу при обробці інформації необхідно очистити її від засмічення випадковими відхиленнями. Метод виявлення аномальних спостережень і їх видалення з сукупності при обробці багатовимірної статистичної інформації може призвести до відкидання занадто великої кількості точок спостереження. Відомі більш чітко обгрунтовані методи виявлення засмічення: метод Смирнова-Граббса перевірки максимального спостереження, критерій Граббса для виявлення одного екстремального спостереження, критерій виключення декількох грубих помилок як узагальнення критерію Граббса. Всі вони застосовуються до впорядкованої сукупності (вариационному ряду):
(N25).
Для перевірки максимального і мінімального значень на наявність грубої помилки використовуються критерії br/>
і , br/>
де,,.
При N> 25 екстремальні значення можуть бути перевірені за умовою S:
,
де - стандартне відхилення, визначене для всієї вибірки;
- передбачуваний викид. p> При S розр кр гіпотеза H 0 : - викид відкидається, в іншому випадку екстремальне значення вважається грубою помилкою і з подальшого розгляду виключається. Критичні значення критерію S визначаються за таблицею. При рівні значущості S кр так залежить від обсягу вибірки N: значенням N = 30, 50, 100; 1000 відповідають S кр = 2,929; 3,082; 3,283; 3,884. p> Парний кореляційний та регресійний аналіз зручно виконувати засобами Excel і надбудови В«Пакет аналізу В»(в меню - Сервіс-Аналіз даних).
У даній роботі я виполяю статистичний аналіз сукупності таких показників виробничо-господарської діяльності підприємств (Додаток 1): продуктивність праці (середньорічна вироблення продукції на одного працівника), тис. грн. Y 1 , премії та винагороди на одного працівника,% X 8 , середньорічна чисельність ППП, чол. X < sub> 11 , середньорічна вартість основних виробничих фондів (ОПФ), тис. грн. X 12 , середньорічний фонд заробітної плати ППП, тис. грн. X 13 , невиробничі витрати,% X 17 .
Виконую перевірки статистичних даних на В«засміченняВ»:
- копіюю всі значення показників на чистий аркуш;
- упорядковую їх по зростанню, виділяю весь стовпець без заголовка і натискаю на панелі кнопку сортування ; p> - встановлюю курсор під останнім значенням і вводжу функцію Статистична
- СРЗНАЧ, а потім СТАНДОТКЛ. p> - обчислюю значення статистики S розр по знайденим характеристикам для найбільшого значення, яке потрібно підставити у формулу замість x 1 і перевірити гіпотезу H 0 : найбільша (останнє в стовпці) значення - викид;
- якщо S розр > S кр (0,05; 50) = 3,082, це значення є викидом, і необхідно перевірити попереднє значення, тільки при цьому слід заново визначити середнє значення і стандартне відхилення, але вже виключивши викид, як це і виконано в наведеній таблиці;
- перевірку на викид продовжую до першого значення, для якого гіпотеза H 0 виявиться неправдоподібною, тобто для якого значення S розр виявиться менше S кр ;
- таку ж перевірку виконую починаючи з найменшого (першого в стовпці) значення, пам'ятаючи про те, що критерій S має двосторонню критичну область, та тому слід розглядати модуль S розр .
Такі перевірки виконую для всіх показників. У підсумку на новий аркуш переношу вихідні статистичні дані, і виключити повністю кожен рядок, в якій є викид хоча б одного з показників. Весь подальший статистичний аналіз проводжу тільки по очищеним даними. Дані зберігаю в Excel на аркуші під назвою В«Очищення від засміченняВ».
В§ 1.2 Перевірка закону розподілу
Попередній аналіз статистичних даних полягає у перевірці відповідності їх припущенням про нормальному розподілі параметрів, для чого строю гістограму і визначаю вибіркові числові характеристики. Для побудови гістограми виконую таку послідовність дій
розміщую на робочому листі Excel статистичні дані спостережень (без викидів);
Сервіс - Аналіз даних - Гістограма (рис.1);
В
Ріс.1.Вибор інструменту аналізу.
- в який з'явився діалоговому вікні Гістограма вводжу в полі Вхідні дані інтервал (Діапазон) осередків, що містить вихідні дані, і наголошую поле Мітки, т.к., таблиця даних має заголовки;
- вводжу в полі Параметри виходу адресу осередки, з якою повинні розміщуватися вихідні дані ( вихідний інтервал ) і клацаю пункт Висновок графіка ;
- O...