Претеглени данни
Въпреки че е напълно възможно да се работи с R sub, тази функционалност не е толкова добре интегрирана, както в повечето други софтуери за статистическа обработка. По-специално, има няколко възможни начина за справяне с. Когато обаче трябва да се вземе предвид и комплекс (виж специалния раздел по-долу), R предоставя всички необходими инструменти, докато в повечето патентован софтуер се нуждаете от адекватно разширение, което не винаги се продава стандартно със софтуера.
По-нататък ще използваме набора от данни от проучването Histoire de vie и по-специално неговото тегло 1 .
Опции за някои функции
Първо, някои функции на R приемете като аргумент вектор, позволяващ претегляне на наблюденията (опцията обикновено се нарича тежести или row.w). Такъв е случаят например с методите за оценка за линейни модели 2 (lm) или обобщени линейни модели 3 (glm) или в кореспондентски анализи 4 на разширения ade4 или FactoMineR .
Тази опция обаче не присъства в основни функции като mean, var, table или chisq.test .
Претеглени данни с разширението на проучването
Разширението на изследването е специално посветено на обработката на проучвания с потенциално много сложни техники за вземане на проби и претегляне.
Разширението се инсталира като повечето други:
Официалният сайт разполага с много информация, но не непременно много достъпна:
http://r-survey.r-forge.r-project.org/.
За да използваме функционалността на разширението, първо трябва да дефинираме или от нашето проучване, тоест да посочим какъв тип тежест искаме да приложим към него.
Първо, ще използваме най-простия дизайн за вземане на проби с вече изчислена променлива на теглото. За други видове план за вземане на проби вижте главата за сложни планове за вземане на проби.
Това се прави с помощта на функцията svydesign:
Тази функция създава нов обект, който нарекохме dw. Този обект не е строго казано таблица с данни, а по-скоро таблица с данни плюс метод на претегляне. dw и d са отделни обекти, операциите, извършени върху единия, нямат влияние върху другия. Въпреки това можем да извлечем съдържанието на d от dw, използвайки dw $ променливи:
Когато нашият план за вземане на проби е деклариран, можем да приложим към него поредица от функции, позволяващи да се извършват различни статистически операции, като се вземе предвид претеглянето. По-специално ще споменем:
- svymean, svyvar, svytotal, svyquantile: (,)
- svytable: и
- svychisq:
- svyby: статистика според фактор
- svyttest: от
- svyciprop:
- svyglm: (не)
- svyplot, svyhist, svyboxplot: графични функции
Налични са и други функции, като svyratio, но те няма да бъдат обсъждани тук.
За да влошат нещата, тези функции приемат аргументите си като формули 5, което не е по обичайния начин. Обикновено извикването на функцията се извършва чрез първо задаване на променливите, които представляват интерес като формула, след това обект survey.design.
Нека да разгледаме някои примери 6: