Кристиан Буркхарт

3 август 2018 г.

Налице са статистически методи за намиране на отговори на въпроси. По-добро ли е лекарството X от лекарството Y? Или диетата P по-добра ли е от диетата S? Всеки знае такива въпроси, често се срещат в ежедневни разговори и все още не се движат в области, където неспециалистите от статистиката биха предпочели да напуснат стаята веднага щом лекторът разкаже термини като статистически параметри, разпределение на пробите или стандартно отклонение.

За да се отговори на подобни въпроси за разликата (X е по-добре от Y), въпреки това се изискват статистически методи. Тези процедури изобщо не трябва да бъдат сложни. Представете си, че искате да знаете дали диета 1, диета 2 или диета 3 е по-добра за отслабване. Разделяте 60 души на 3 групи всяка (20 души на група). Група 1 трябва да премине през диета 1, група 2 трябва да премине през диета 2 и група 3 трябва да премине през диета 3. Всяка група за точно 6 седмици. Преди началото на експеримента, всеки се претегля отново. В края на експеримента всички отново трябва да са на кантара. Сега коя диета е най-добра? Най-простият отговор би бил групата, която е отслабнала най-много. Нека да го проверим.

R, R-Studio и Tidyverse

Ще прегледам веднага всички анализи с R. R е език за програмиране, който е написан за статистически оценки. Ако искате да участвате, имате нужда от R и R-Studio. Вземаме набора от данни за този пример от този уебсайт (изтеглете csv файла по темата за диетата). Ако все още не сте го направили, първо инсталирайте пакета tidyverse и пакета gghighlight:

След това можем да заредим пакетите и да прочетем в записа на данни:

Ако сте нов в R, уверете се, че сте определили правилната работна директория, преди да прочетете данните. Най-лесният начин е да въведете следната команда в конзолата и да изберете папката, в която се намира файлът stcp-Rdataset-Diet.csv.

Данните вече трябва да бъдат заредени и можете да ги видите с поглед:

Сега се занимаваме само с две от тези променливи: тегло 6 седмици и диета. Диетата не е нищо повече от променлива, която съдържа числата 1, 2 и 3. 1 означава Диета 1 и така нататък. weight6weeks показва теглото на хората след 6 седмици.

Ние обаче се интересуваме от разликата в теглото след 6 седмици. За целта създаваме нова променлива:

mutate е функция, която можем да използваме за създаване на нови променливи.

Сега сме готови да разберем дали диетите сега имат различна степен на успех.

Има ли разлика диетата? Лесен начин да отговорите на въпроса

Какъв би бил най-лесният начин да проверите дали групите са различни? Сравняваме средните стойности.

Или казано по-просто, събираме всички стойности и разделяме тази сума на броя на стойностите. Първо, нека намерим средното за трите групи.

Ммммм, добре Група 3 изглежда е отслабнала най-много. И така, диета 3 ли е най-добрата? Или, казано по друг начин, от каква разлика е една диета по-добра от друга? Или не може ли просто разликите да са предмет на случайни колебания? Помислете за това сами. Сега, ако средната стойност на диета 3 беше -4, бихте ли казали, че диетата е по-добра от другата? Ами ако средната стойност беше -3,5? Забелязвате, че решението е малко произволно. Обикновено се нуждаем от гранична стойност, за да определим дали диетата има значение. Ние определяме тази гранична стойност, използвайки други методи.

Друг метод за определяне на разликите между групите

Вместо да вземем средното, за да разберем дали групите се различават, бихме могли да попитаме дали тези разлики са обект на случайни статистически колебания или всъщност е малко вероятно 3 групи да са толкова различни една от друга. За да разберете какво имам предвид с това, един малък пример.

Пример за куб

Да предположим, че имате 6-странен матрица. Искате да знаете дали този зар наистина показва всяко число със същата вероятност. Това означава, че всяко число трябва да се появи с (1/6 * 100) процента, т.е. 16,67% вероятност. Ако обаче хвърлим заровете 6 пъти, е много малко вероятно всяко число да се появи точно веднъж. Появата на числата е обект на определени статистически колебания. Ако обаче хвърлим 10 000 пъти, можем да приемем, че всяко число се среща около 16,67%.

Неманипулиран куб

Първо навиваме не манипулирано руло 10000 пъти:

С set.seet (100) получавате същите резултати като мен. ИСТИНА означава, че имаме шанса да превъртим числата от 1 до 6 всеки път.

Колко често трябва да се появява всяко число? Точно 1667 пъти приблизително. Тъй като всяко число има еднакъв шанс да се случи, разделяме 10000 на 6 и получаваме 1667 (закръглено). Получаваме подобни стойности обратно от R:

Виждаме, че не всяко число е разточено точно 1667 пъти, но тези статистически колебания са очаквани. Ако проведохме този експеримент милион пъти, а не 10 000, щяхме да получим почти еднаква вероятност за всеки куб. Истинските кубчета, от друга страна, не са перфектни. Дори счупеният ръб може да означава, че някои числа са по-склонни да се търкалят.

Наредено кубче

Какво се случва сега, ако кубът е бил манипулиран? Как можем да определим дали разликите в появата на числата не са обект на случайни статистически колебания (както при неманипулираните хвърляния), а са систематични? За да отговорим на този въпрос, повтаряме експеримента 1000 пъти. 1000 пъти Нека хвърлим заровете 100 пъти и да видим колко често числото 4 се появява в него. Статистически трябва да приемем, че числото четири се среща около 1667 пъти най-много.

Тази функция е по-сложна. Постепенно:

1: 1000: Създаваме вектор с числа от 1 до 1000
map_dbl: За всяко от тези числа от 1 до 1000 изпълняваме функция над него
проба (1: 6, 1000, TRUE): Хвърляме заровете 100 пъти
таблица (.): Можем да покажем честотите на числата в тези 100 хвърляния
.[имена (.) == 4]: Ние броим колко често се среща числото 4 в тези честоти
таблица: От 1000 експеримента броим колко често са се появили 4-те във всеки от експериментите.

Вече можем да визуализираме това разпределение:

Добре, очевидно със 100 хвърляния е много вероятно да получите числото 4 16 или 17 пъти. Получаването на числото 4 27 или дори 6 пъти е изключително невероятно, ако приемем, че кубът не е манипулиран.

Това, което виждате тук, е разпределение на вероятностите. От разпределението можем да определим колко вероятно ще се случи събитие (появата на числото 4 на 100 хвърляния). Въз основа на графиката, която симулирахме, можем да кажем, че куб вероятно е манипулиран, ако 4-те се случи 27 пъти.

Биномно разпределение

Можем да използваме току-що създаденото разпределение на вероятностите, за да определим дали кубът е манипулиран. Например, ако получим числото 4 само 6 пъти от 100 хвърляния, би било много малко вероятно матрицата да бъде подправена. И точно така обикновено тестваме научни въпроси. Ние не се чудим дали нашият научен въпрос е верен, а по-скоро дали нашето събитие (разликите в отслабването между диетите) е малко вероятно, ако не приемем разликите.

Не трябва да симулираме тези разпределения на вероятности всеки път. Те вече са изчислени. За примера на куба има смисъл да се използва биномно разпределение. Нашето разпределение на вероятностите по принцип не е нищо друго. С биномно разпределение тестваме вероятността за n събития с определена вероятност. Например: Колко вероятно е с 5 хвърляния да превъртим числото 4 3 пъти?

Вече можем да представим нашето разпределение на вероятностите като биномно разпределение:

И така, кога започваме да вярваме, че кубът вероятно не е нормален куб (но е бил манипулиран)? По-рано произволно бяхме определили границата. Учените правят много подобно нещо.

Ако вероятността за събитие е по-малка от 5% въз основа на разпределение на вероятността, събитие е малко вероятно.

В нашата дистрибуция това са следните събития:

Така че, ако хвърлим числото 4 22 пъти или повече, трябва да приемем, че това не е нормален зар, но че заровете вероятно са манипулирани. Тогава говорим за значимо събитие.

Разпределението F

С биномиалното разпределение ние проверяваме дали определен брой събития е вероятно или е малко вероятно да се случат. С F-разпределението тестваме дали разликите между две вариации са обект на статистически колебания или те са систематични. За да разберем това, първо трябва да разберем какво се разбира под отклонение.

Дисперсия

Дисперсията е статистическа мярка, която можем да използваме, за да покажем колко варира дадена променлива. Например хората се различават по тегло. Някои хора са трудни, други са лесни. Нека изчислим формулата, както следва:

С други думи, ние добавяме отклоненията в квадрат на отделните стойности на теглото със средната стойност на пробата и разделяме тази сума на n - 1. Винаги е много практично да визуализираме подобни математически идеи и графично.

Хоризонталната линия представлява средната стойност на нашата променлива проба. Всяка точка е теглото на всеки човек след 6 седмици.

В този пример дисперсията не е нищо повече от средната площ на тези квадрати, разделена на броя на квадратите - 1. Досега го оставихме отворен защо не просто разделяме тези квадрати на броя на квадратите, а на броя на квадратите минус 1 Това е така, защото сме склонни да подценяваме вариацията на популация, когато извадим само няколко души от извадка (тук броят на хората, участващи в нашия експеримент). Тази корекция се нарича още корекция на Bessel.

Дисперсията за нашите променливи тегло6 седмици изглежда графично, както следва:

Отново трябва просто да разделим сумата на площта на тези квадрати на броя на квадратите минус 1 и да получим дисперсията.

Колкото по-малка е площта на тези квадрати, толкова по-малка е дисперсията на променливата. С други думи, колкото по-малко отделните стойности се отклоняват от средната стойност на променливата, толкова по-ниска е дисперсията.

В R можем да изчислим тази дисперсия, както следва:

И двете команди произвеждат отклонение от 79.64677.

Отклонение коефициент

Можем да сравняваме вариациите помежду си, като формираме коефициент от две вариации. Например, бихме могли да сравним дисперсията на първата диетична група с дисперсията на втората диетична група.

Ако стойността е над 1, дисперсията на първата група ще бъде по-голяма от дисперсията на втората група. Ако стойността е по-малка от 1, дисперсията на първата група е по-малка от дисперсията на втората група.

F-стойността е резултат от такъв фактор. Но вместо произволно да сравняваме дисперсии с коефициент, ние обикновено сравняваме систематична с несистематична дисперсия. Систематичните отклонения обикновено се появяват поради манипулации, които ние сами осъществяваме. Например назначихме 3 диети на 60-те души. Това задание беше систематично. Несистематичната дисперсия е дисперсията, дадена от данните. Например дисперсията на всички данни около средната стойност на променливата.

F стойност

Стойността F е коефициентът на дисперсията между нашите 3 диетични групи (SSB) и несистематичната дисперсия в нашите данни (SSW).

Сума на квадратите между (SSB)

Изчисляваме дисперсията между групите, като изваждаме средната стойност на групите от общата средна стойност на променливото намаляване на теглото, изчисляваме го и го изчисляваме по броя на случаите.

Квадратите е трудно да се видят, защото мащабирането е толкова различно. Редът в средата показва средната стойност на променливата, точките са средните стойности на отделните групи. Има толкова точки, колкото има хора във всяка група. Ако плъзнем квадратите, изглежда така:

Трябва да съберем тези квадрати отново.

Сума от квадрати в (SSW)

Вътрешногруповата дисперсия не е нищо повече от сумата на вътрешногруповата дисперсия.

F стойност

Досега сме събирали само квадратите, но все още не сме изчислили дисперсия. За целта трябва да разделим SSB и SSW на знаменател:

Средни квадрати между (MSB): SSB/(k - 1). K е броят на групите, тук 2.
Средни квадрати в (MSW): SSW/(n - k). N е броят на хората във всички групи, тук 78

Стойността F сега се формира от коефициента между MSB и MSW.

Ако смятате, че бих бил в добра форма, бих могъл да ви свърша работа или искате да бъда във вашия екип, изпратете ми съобщение. Процъфтявам в среда, която се грижи за ученето на учениците и иска да предостави добре проектиран опит за онлайн обучение или визуализации на данни.

За мен

Аз съм дизайнер с инструкции със солидни познания в уеб разработката, онлайн обучението и визуализацията на данни.

Контакт

Не се притеснявайте да се свържете с мен. Очаквам с нетърпение да се чуем.