ою матриці плану. Відзначимо, що такий підхід, на відміну від бутстрепа, породжує як би нову емпіричну інформацію.
До цих пір ми говорили про вплив на розвиток бутстрепа концепції Р. Фішера. Але вже в рамках непараметричної статистики, крім його робіт, вирішальний вплив мали дослідження А.Н. Колмогорова, Н.В. Смирнова, Ф. Уїлкоксона, Дж. Ходжес і Е. Леманна, а також їх численних учнів і послідовників. Для бутстрепа непараметрическая статистика- і джерело ідей, і об'єкт докладання.
1.5 Бутсреп і застосування ЕОМ
Ще 30 років тому через великого обсягу обчислень процедури типу бутстрепа були немислимі. Це машинно-орієнтовані методи, істотно залежать від розвитку обчислювальної техніки і зовнішніх систем ЕОМ. Звичайно, і раніше існували методи, що вимагають застосування обчислювальної техніки, наприклад метод Монте-Карло, який грає важливу роль і в бутстреп-процедурах. Цей напрямок виникло з появою роботи Н. Метрополіса і С. Улама. Метод Монте-Карло являє собою рандомізацію умов випробувань при принципово неповному переборі, причому самі випробування можуть бути не тільки фізично експериментами, але і розрахунками на ЕОМ. Споріднений напрям - випадковий. пошук, розвивається з початку 60-х років.
Створення концепції імітаційного моделювання, пов'язане з роботами Т. Нейлора, забезпечило досить міцну основу для застосування ЕОМ в статистиці і статистики в машинних експериментах. Одним з найважливіших досягнень було усвідомлення можливості формулювати завдання імітації як задачу планування експерименту. Бутстреп та імітаційне моделювання знаходяться під взаємним впливом.
Бутстреп-процедура може розглядатися як спосіб управління вибіркою в ході обробки даних. Традиційна область управління вибіркою - планування експериментів або обстежень. Нове полягає в перенесенні ідей активного експерименту на процедури обчислень, на обробку даних.
При традиційному підході, якщо вибірка задана, то для отримання найбільш ефективних оцінок і для перевірки гіпотез критеріями з найбільшою потужністю треба використовувати всі вибіркові спостереження до одного. Виключення з розрахунку кожного спостереження означає зменшення на одиницю числа ступенів свободи з усіма витікаючими наслідками. Дослідник в поті чола добуває безцінні крихти інформації, і статистик повинен не «розплескати» жодної з них. Обробляли завжди всі дані, якими розташовували. Виникнення при такому підході зміщення не було секретом. Адекватність регресійної моделі оцінювали за наявними даними, вже використаним для обчислення коефіцієнтів. Справжнє ж випробування моделі було попереду, коли експериментатор зможе добути нові дані. Проте до цього доходило рідко: дані видобуваються справді не легко і не швидко. Ну а якщо все-таки потрібні дані знаходилися, то це рідко приносило радість статистику через зміщення оцінок.
Інша справа, коли дані надходять послідовними серіями (вибірками) або одиницями. У цьому випадку застосовуються і відповідні методи: поточний регресійний аналіз, стохастична апроксимація, рекуррентное оцінювання, контрольні карти і т.п. Для застосування бутстрепа до послідовним і будь-яким іншим експериментам немає ніяких протипоказань, але в статтях Б. Ефрона, включених до збірки, упор зроблений на випадок єдиною вибірки, бути може, і не дуже великого обсягу. Це найбільш складний і принциповий випадок.
До появи імітаційного моделювання з його набагато більш легким ставленням до експерименту в статистичних роботах важко відшукати навіть натяки на управління вибіркою в ході обчислень. Зате існувала інша, хоча і близька, область дослідження - розпізнавання образів. Первісна статистична постановка задачі розпізнавання належить Р. Фішеру (це так званий дискримінантний аналіз). Пізніше був запропонований підхід, часто званий «розпізнаванням з учителем». Тепер його прийнято називати повторною перевіркою або крос-перевіркою. Цей найпростіший прийом полягає в тому, що вихідна вибірка випадковим чином ділиться навпіл. Одна частина використовується для отримання цікавлять дослідника оцінок, а друга - для «іспиту» (ось чому «розпізнавання з учителем»).
Легко уявити собі подальшу еволюцію цієї ідеї, особливо якщо під рукою є хороша обчислювальна техніка. Дійсно, чому треба ділити навпіл тільки один раз, а не кілька (краще багато) раз? Чому треба ділити саме навпіл? Можливо, для іспиту вистачить і однієї десятої? [1]
Наприклад, проблеми вивчення методу «бутстреп», приділяють увагу не тільки професійні статистики та математики.
Влітку 2009 студенти брали участь у програмі Університету Лайоло SCORE (Summer Collaborative Outreach and Research Experience), заснованої Луїзіанські Радою опікунів. Головним завданням SCORE було збільшення к...