стики. Умовний розподіл при заданих X1, ..., Хп, т.е.
(2.1.9)
називається бутстреп-розподілом або бутстреп-оцінкою точного розподілу G (), що визначається формулою (2.1.5).
Бутстреп-оіенкі розглянутих вище заходів точності (або похибки) мають вигляд:
, (2.1.10)
, (2.1.11)
, (2.1.12)
, (2.1.13)
де індекс * вказує на (умовне) математичне очікування, обчислене щодо бутстреп-розподілу (2.1.9). У непараметричних ситуаціях бутстреп-оденкі (2.1.10) - (2.1.13) практично неможливо обчислити для складної статистики. Справа в тому, що для симетрично залежної від своїх аргументів (Хn) статистики (X1 ..., Хп) формули (2.1.10) - (2.1.13) вимагають, щоб статистика обчислити раз, що при n=15 становить 77558 760. Також у багатьох параметричних ситуаціях «точне» обчислення бутстреп-оцінок передбачає використання багатьох наближених процедур. Ефрон пропонує замість цього використовувати синтез ідей бутстрепа і методу Монте-Карло. Алгоритм Ефрона містить наступні кроки:
. За вибіркою Хп будується оцінка розподілу F.
. Для m=1, 2, ..., М повторити таку процедуру - витягти вибірку обсягу n з розподілу і обчислити бутстреп-реалізацію
.
3. В якості оцінки приймається наближення
(x) =? {}/М, (2.1.14)
де? {А} - число елементів (кінцевого) безлічі А. Таким чином, наближені бутстреп-оденкі зсуву, дисперсії та інших характеристик точності статистичного висновку можна отримати за допомогою випливають з виразу (2.1.14) співвідношень
, (2.1.15)
,
, (2.1.16)
. (2.1.17)
У дійсності важливо знати, яка саме кількість М бутстреп-реалізацій гарантує необхідну точність наближень Монте-Карло. Також цікаво знати, що станеться, якщо витягувати бутстреп-вибірку обсягу т, відмінного від п. І нарешті, чи не можна поліпшити бутстреп-оцінки в будь-якому сенсі. Для відповіді на «наївне» запитання про те, навіщо взагалі потрібні бутстреп-методи, ми розглядаємо запропоновані Ефроном способи побудови наближених довірчих інтервалів. Саме тут теоретична новизна поєднується з практичною корисністю, причому важко уявити більш вдалий в порівнянні з Бутстреп алгоритм побудови наближених довірчих меж, настільки добре узгоджуються з точними, коли останні взагалі можна визначити. [14]
Перш, ніж говорити про асимптотичних властивостях бутстреп-оцінок, наведемо лише один приклад застосування бутстрепа в досить часто зустрічається регресійній моделі. Нехай ми отримали п спостережень випадкової величини Y, яким відповідають значення k-мірного вектора аргументів - предикторів. Припустимо для простоти, що модель залежності описується лінійним рівнянням
. (2.1.18)
Тут - незалежні, однаково розподілені залишки, що підкоряються невідомому розподілу F, а вектор коефіцієнтів оцінюється за методом найменших квадратів. Будемо вважати, що похибка оцінки вимірюється матрицею її ковариаций C=Cov (). Перший спосіб оцінити матрицю З полягає в тому, що, визначивши в моделі (2.1.18), ми обчислюємо оцінені залишки за формулою
і будуємо по ним. як по незалежним спостереженнями, емпіричне розподіл F. Потім для вибірки обсягу з розподілу обчислюються значення бутстреп-реалізацій залежною змінною:. За отриманими бутстреп-даним будується оцінка найменших квадратів так само, як за вихідними даними, будувалася оцінка вектора. Знайдені бутстреп-реалізації вектора, тобто сукупність можна далі використовувати для оцінки матриці С за формулою
, (2.1.19)
.
Інший спосіб бутстреп-аналізу полягає в тому, що емпіричний розподіл будується за багатовимірним вихідним даним, при цьому на першому кроці з'являється (k + 1) -мepное емпіричне розподіл, який приписує вес 1/n спостереженню, потім вилучається бутстреп-вибірка обсягу п з цього розподілу і за отриманими векторах будується оцінка найменших квадратів - бутстреп-реалізація статистики. Цікавить нас оцінка ковариационной матриці С визначається за величинам за допомогою тієї ж формули (2.1.19). Б. Ефрон і Р. Тібшірані відзначають, що, хоча для кінцевих вибірок результати і різні, вони опиняються еквівалентними в асимптотиці. [1], [14]
2.2 Асимптотична оптимальність бутстреп-оцінок
Розглянемо задачу оцінювання функції розподілу F за вибіркою обсягу п з. Для простоти припустимо, що функція розподілу F і оцінка належать деякому простору Z функцій на прямій, яке забезпечено нормою || ||. При цьому втрати від прийняття оцінки, коли справжня функція розподілу є F, вимірюються величиною, де l - монотонна неубутна функція на безлічі невід'ємних чисел. Наприклад, можна вимірювати втрати величиною або. Ризиком оцінки називається середнє значення втрат, тобто. Щоб виключ...