Населението на синеоките марсианци намалява

Да предположим, че искаме да проверим хипотезата, че делът на синеоките марсианци е намалял през 20-ти век. За съжаление марсианското население варира значително, така че има голямо различие в общото население всяко десетилетие [Актуализация: Считайте марсианското население за постоянно на един милиард марсианци. Следните данни са произволни извадки за всяка година. Наборът от данни (който се съставя при писане) може да изглежда по следния начин:

Анализът на годините, в които марсианското население е на възраст под 100 години, очевидно не е толкова статистически значим, колкото за население над 10 000, тъй като в последния случай имаме по-голям набор от данни. И все пак бихме искали да използваме всички налични данни, за да тестваме нашата хипотеза с конвенционално ниво на значимост от 95%.

Как да продължим? Нека преценим важността на всяка година според размера на пробата към момента?

Други промени за справяне със загрижеността: Тук става въпрос за това как правилно претегляме всеки набор от данни, като се има предвид, че те са толкова различни по размер. Няма проба на пробата, тъй като данните са избрани на случаен принцип.

0 'role = "prezentacija"> 0 1' role = "prezentacija"> 1

n 'role = "prezentacija"> n p' role = "prezentacija"> p k 'role = "prezentacija"> k

Знаем всяко десетилетие и това се дава от данните - но знаем. Можем да го изчислим, като приемем, че логаритмичните коефициенти, които съответстват, варират линейно от година на година (поне до добро приближение). Това означава, че приемаме, че има числата, така че n 'role = "prezentacija"> nk' role = "prezentacija"> kp 'role = "presentation"> pp' role = "prezentacija"> p β 0 'role = "prezentacija"> β 0 β 1' role = "prezentacija"> β 1

Ако включите това в (1), имате възможност да гледате през определена година като k 'role = "prezentacija"> k n' role = "prezentacija"> n t 'role = "prezentacija"> t

Ако приемем, че пробите се получават независимо през годините и т.н. и съответните и от синеоките субекти като и, вероятността за данните е произведение на вероятностите за отделните резултати. Този продукт е (по дефиниция) вероятността за. Можем да оценим тези параметри като стойности, които максимизират вероятността; Съответно, те максимизират вероятността за регистрация t 1, t 2, 'role = "prezentacija"> t 1, t 2, ni' role = "prezentacija"> niki 'role = "prezentacija>> ki (β 0, β 1) 'role = "prezentacija"> (β 0, β 1) (β ^ 0, β ^ 1)' role = "prezentacija"> (β ^ 0, β ^ 1)

получен от . (2) 'role = "prezentacija"> (2)

(Това е значително опростено, когато се използват правила за логаритъм. Това е една от причините да се изрази отношението време-съотношение по отношение на log шансовете. Ако всички пропорции са приблизително между и, има малка качествена разлика между използването на вероятности или Вашите шансове за победа в дневника: Коригираната крива е линейна или почти линейна.) 0.2 'role = "prezentacija"> 0.2 0.8' role = "prezentacija>> 0.8 p 'role =" prezentacija "> p

(3) 'role = "prezentacija"> (3) е биномиален обобщен линеен модел. Той трябва да се коригира чрез минимизиране на числено. Процедурата в (показана в края на тази публикация) дава решение Λ 'role = "presentation"> Λ glm R

Данните на тази фигура са нанесени с филийки, чиито площи са пропорционални на размера на пробата. Прилягането на GLM е криволинейно. За сравнение, редът, който бихме получили, ако трябва да изведем данните, показани във въпроса, към общ решавател на най-малките квадрати е показан в сиво за сравнение. Въпреки малкия размер на извадката по това време, и двата пристъпа се влияят от по-големите пропорции през по-ранните години. Въпреки това, приспособяването на GLM може да приближи по-добре пропорциите в най-големите проби, получени през 1970 и 1980 г. Пунктираната синя линия е описана по-долу. (Година, Пропорция) 'role = "prezentacija"> (Година, Пропорция)

Чрез добавяне на квадратичен термин, ние можем да тестваме добротата на пригодността. Той значително подобрява приспособяването на GLM (въпреки че визуалната разлика не е голяма) и предоставя доказателство, че този модел не описва добре варирането в резултатите. Поглед върху графиката показва, че резултатът през 1990 г. е много по-нисък от прогнозирания модел.

Алтернативен, но сравним подход е да се направи оценка за всяка година поотделно, евентуално като (въпреки че са възможни и други оценки). Линейната регресия на логаритмичните коефициенти на тези оценки спрямо годината, претеглена с размерите на извадката или регресията на най-малките квадрати, дава p 'role = "prezentacija"> pti' role = "prezentacija"> tiki/ni 'role = "prezentacija" > ki/nini 'role = "prezentacija"> ni

Стандартните грешки на тези оценки съответно показват, че оценките на WLS не се различават съществено от биномната GLM. (Обаче стандартните грешки на GLM са значително по-малки: той „знае“, че тези размери са доста големи, докато линейната регресия „не знае“ нищо за размерите на пробите: има само една последователност от десет отделни наблюдения.) Имайте предвид, че Алтернатива може да не е налична, ако или ако не се използва друга оценка на вероятностите (която няма стойности на или). 15,55 'role = "prezentacija"> 15,55 0,00787' role = "prezentacija"> 0,00787 ki = ni 'role = "presentation"> ki = niki = 0' role = "prezentacija>> ki = 0 0 'role =" prezentacija " > 0 1 'role = "prezentacija"> 1

И накрая, бихме могли просто да направим претеглена регресия на най-малките квадрати на суровите оценки на вероятността спрямо годината, която е обратно претеглена от оценка на дисперсията на извадката. Дисперсията на биномно разпределение е променлива, отново изразена като съотношение. Това може да се изчисли от извадка като k/n 'role = "prezentacija"> k/n (n, p)' role = "prezentacija"> (n, p) X 'role = "prezentacija>> XX/n' role = "prezentacija"> X/np (1 - p)/n 'role = "prezentacija"> p (1 - p)/n

Резултатът се появява на фигурата като пунктирана синя линия. В този случай изглежда има компромис между корекциите на GLM и OLS.

Следващият R код извърши анализите и генерира фигурата.