Статичен избор на симулиран Bootstrap

Статии "
2015 г. "
Bootstrap: Симулиране на статистически подбор

Метод за симулиран статистически подбор

От средата на миналия век са публикувани произведенията, инициирани от развитието на изчислителните технологии (Efron B., Tukey J. и др.), Посветени на така нареченото преизбиране - генериране на допълнителни проби от съществуващите. Един от тези подходи, често срещан в ерата на компютърните технологии, е методът за зареждане или метод за симулиране на статистически подбор.

Същността на метода е да формира набор от проби въз основа на произволен подбор с повторения. Ако липсва априорна информация за закона за разпределение на извадката и все още е необходимо да се получат оценки за неговите характеристики, тогава методът за зареждане може да бъде много полезен инструмент. Нека разгледаме работата му на примера за изчисляване на средната стойност.

Да приемем, че имате набор от стойности \ (x_1, x_2, \ ldots, x_ \), въз основа на които искате да изчислите средната стойност. На езика на "математическата статистика" този проблем звучи така: има извадка от някакъв неизвестен закон за разпределение; необходимо е да се оцени математическото очакване на това разпределение и да се намерят границите на доверие на оценката.

Методът на виртуални проби (метод на bootstrap) се състои в това, че въз основа на първоначалния набор \ (x_1, x_2, \ ldots, x_ \), използвайки процедура на произволен подбор с повторения, се формират набори от формуляра: $$ \ започнете
x_2, x_4, x_5, x_5, x_7, x_8, x_, x_9, x_4, x_5 \\
x_7, x_1, x_3, x_2, x_7, x_6, x_, x_9, x_6, x_1 \\
x_4, x_5, x_1, x_2, x_1, x_6, x_9, x_, x_, x_8 \\
\ ldots \\
x_8, x_1, x_1, x_3, x_4, x_6, x_7, x_5, x_7, x_8
\ край
$$

По този начин се създават много виртуални проби. Изчислените средни стойности за всяка от тези виртуални проби ще бъдат, в статистически смисъл, приблизителни оценки на желаното математическо очакване.

Да приемем, че сме формирали 1000 проби и сме намерили средната стойност за всеки набор. Нека ги обозначим \ (m_1, m_2, \ ldots, m_ \). Тъй като броят на елементите във всяка от извадките е еднакъв, намерените средни стойности са извадка от някакъв закон на разпределението на вероятностите, който е добре представен (има 1000 пробни стойности!). Медианата на получената извадка може да служи като оценка на неизвестното математическо очакване, а процентилите, съответстващи на нея (ако зададем нивото на вероятност на вероятност), ще бъдат границите на желания интервал на доверие.