Претеглени данни

Въпреки че е напълно възможно да се работи с R sub, тази функционалност не е толкова добре интегрирана, както в повечето други софтуери за статистическа обработка. По-специално, има няколко възможни начина за справяне с. Когато обаче трябва да се вземе предвид и комплекс (виж специалния раздел по-долу), R предоставя всички необходими инструменти, докато в повечето патентован софтуер се нуждаете от адекватно разширение, което не винаги се продава стандартно със софтуера.

По-нататък ще използваме набора от данни от проучването Histoire de vie и по-специално неговото тегло 1 .

Опции за някои функции

Първо, някои функции на R приемете като аргумент вектор, позволяващ претегляне на наблюденията (опцията обикновено се нарича тежести или row.w). Такъв е случаят например с методите за оценка за линейни модели 2 (lm) или обобщени линейни модели 3 (glm) или в кореспондентски анализи 4 на разширения ade4 или FactoMineR .

Тази опция обаче не присъства в основни функции като mean, var, table или chisq.test .

Претеглени данни с разширението на проучването

Разширението на изследването е специално посветено на обработката на проучвания с потенциално много сложни техники за вземане на проби и претегляне.

Разширението се инсталира като повечето други:

Официалният сайт разполага с много информация, но не непременно много достъпна:
http://r-survey.r-forge.r-project.org/.

За да използваме функционалността на разширението, първо трябва да дефинираме или от нашето проучване, тоест да посочим какъв тип тежест искаме да приложим към него.

Първо, ще използваме най-простия дизайн за вземане на проби с вече изчислена променлива на теглото. За други видове план за вземане на проби вижте главата за сложни планове за вземане на проби.

Това се прави с помощта на функцията svydesign:

Тази функция създава нов обект, който нарекохме dw. Този обект не е строго казано таблица с данни, а по-скоро таблица с данни плюс метод на претегляне. dw и d са отделни обекти, операциите, извършени върху единия, нямат влияние върху другия. Въпреки това можем да извлечем съдържанието на d от dw, използвайки dw $ променливи:

Когато нашият план за вземане на проби е деклариран, можем да приложим към него поредица от функции, позволяващи да се извършват различни статистически операции, като се вземе предвид претеглянето. По-специално ще споменем:

  • svymean, svyvar, svytotal, svyquantile: (,)
  • svytable: и
  • svychisq:
  • svyby: статистика според фактор
  • svyttest: от
  • svyciprop:
  • svyglm: (не)
  • svyplot, svyhist, svyboxplot: графични функции

Налични са и други функции, като svyratio, но те няма да бъдат обсъждани тук.

За да влошат нещата, тези функции приемат аргументите си като формули 5, което не е по обичайния начин. Обикновено извикването на функцията се извършва чрез първо задаване на променливите, които представляват интерес като формула, след това обект survey.design.

Нека да разгледаме някои примери 6: