Психология за студенти с обществено търсене - Тест за подписване на ранг за медиана на Уилкоксън

Статистически анализи

Преди няколко дни мила студентка по психология ме помоли за помощ по дадена тема и след като я обсъдихме, тя предположи, че тук ще има друга тема, която се нуждае от помощ от нейния екип. Въпреки че първоначално не исках да се занимавам с това, мислех, че ще се опитам да помогна на екипа да се подготви за следващия ZH. Проблемът, който той повдигна, всъщност беше обобщен в таблица:

Тоест, въпросът беше какъв тип тестове за хипотези могат да се използват за изследване на средните стойности на набори от данни, които имат малък брой елементи, но обикновено не се разпределят. По-конкретно, въпросът беше какво означават „секретните кодови имена“ в колоната „Защото“. Справял съм се с t-теста с една проба преди (пивоварът, който революционизира статистиката и как да го направя с Minitab - t-тест с една проба), но все още не съм взел непараметричните тестове Освен това другите имена в колоната също не ми казват много (да кажем, че не се гордея с това). Но реших да сложа ръкавиците и да се изправя пред предизвикателството. Не обещах да отида на опашка, така че сега ще въведа метод, наречен „Тест с ранг на Wilcoxon Signed за медиана“ - име, което той ми казва напълно глупост. Унгарското име е още по-скучно и дори не се оказва случайно за какво служи. Преди се отровявах и се опитвах да опиша на разбираем за земните простосмъртни като мен език какъв е той в действителност.

Този тест е изобретен от джентълмен на име Франк Уилкоксън през 1945 г. и е един от първите непараметрични тестове в историята на статистиката, което означава, че няма особени ограничения за разпространението на изследвания набор от данни. Има само две условия за използване на теста:

Проучваната променлива трябва да бъде непрекъсната
Функцията на плътността на разпределението на набора от данни трябва да бъде симетрична

Целта на теста е да се определи дали медианата на изследваната произволна извадка е равна на предполагаемата медиана на популация. Въз основа на това, приетата нулева хипотеза е, както следва:

Контрахипотезата е съответно

или в случай на едностранна контрахипотеза

Но защо вземаме медианата като основа и защо не средната стойност? Когато се стигна до средните мерки на поредицата от данни (мерки за средните стойности на наборите от данни), споменах, че средната стойност е много чувствителна към липсващите стойности, но медианата няма това свойство. Докато изследваният набор от данни е нормално разпределен, наистина няма значение дали изчисляваме със средната или медиана, но ако разпределението на набора от данни е изкривено или асиметрично, тогава медианата дава по-добра оценка на средната стойност на набор от данни от средната стойност или режим.

В този пример изследваме дължината на произволно избрани индивиди от черен джудже (вижте изображението по-горе). Размерите на избраната риба са както следва:

5,0; 3,9; 5.2; 5,5; 2,8; 6.1; 6.4; 2.6; 1,7; 4.3

Въпросът е дали медианата на дължините на джуджетата се различава значително от 3,7?

За да решим този въпрос, трябва да създадем таблица. Първата колона на таблицата ще бъде сериен номер, а във втората колона въведох горните данни.

Като първа стъпка трябва да изчислим за всяка стойност колко далеч са те от дадената медиана ‘m0’. Това е позната история, в началото на блога, когато се описва разсейването на поредицата от данни (Разпръскване на елементите от наборите от данни - Стандартното отклонение и дисперсията), същото дойде само когато средната стойност беше взета като средната стойност на поредицата от данни.

Въпреки това и тук проблемът е, че някои от отклоненията са по-големи от нула, а други са по-малки. За да сортираме елементите от поредицата от данни според тяхното разстояние от медианата, нека вземем абсолютната стойност на тези разстояния:

Добре, тогава сега ще сортираме абсолютните стойности на разликите между „Дължина“ и „m0“ във възходящ ред на величина и ще напишем до всяка част данни колко той или тя е в класацията. Например в четвъртата колона 1.3 е петото най-малко разстояние от медианата, така че той получава числото пет, а 0.2 е най-малкото разстояние, така че получава едното. Не усложних твърде много това, пренаредих таблицата във възходящ ред въз основа на четвъртата колона, попълних полето ‘Rank (Ri)’ със серийни номера и след това пренаредих цялата таблица във възходящ ред според първата колона.

Това има смисъл, тъй като през останалата част от теста ще продължим да работим само с рангове, за които разстоянието от „Дължина“ до медианата е положителна стойност. Мисля, че поради това разпределението на данните трябва да бъде симетрично, тъй като тестът отчита само стандартните отклонения. В противен случай това може да се постигне по друг начин чрез дефиниране на променлива ‘Zi’, чиято стойност е 0, ако разстоянието на ‘Length’ от медианата е отрицателно и 1, ако това разстояние е положително. След това продуктът „RiZi“ може да се сумира, за да даде стойността на W.