Липсващи данни - причини, идентификация и приписване - ThinkR - Сертифициране; Обучение

липсващи

Но къде са те? Сега всъщност не става въпрос за това къде са отишли, а за това как да ги заменим. По време на нашата кариера всички ние сме имали опит да си счупим главите, за да знаем как ще можем да използваме тези данни, изпъстрени с липсващи стойности, защото знаем, че качеството на нашите данни е един от основните ключове за водене проект за данни.

Първото нещо, което трябва да направите, когато се занимавате с непознати или непознати за нас данни, е да погледнете главата, която има: погледнете бързо обобщение и няколко графики по-късно (вижте статията, посветена на капаните, за да избегнете, когато искате да видите данните си: https://thinkr.fr/les-pieges-de-la-representation-de-donnees/), вече имаме по-ясна представа за Предстоящата почистваща работа.

Друга функция, която може да бъде полезна за получаване на първа представа за нашите данни и която дава броя на липсващите стойности на променлива: skim () на пакета или функцията glimpse () на пакета:

Таблица 1: Обобщение на данните
Име iris.miss
Брой редове 150
Брой колони 5
_______________________
Честота на колоната:
фактор 1
числови 4
________________________
Групови променливи Нито един

Тип променлива: фактор

skim_variable n_missing complete_rate поръчан n_unique top_counts
Видове 33 0,78 НЕВЯРНО 3 ver: 40, vir: 40, set: 37

Тип променлива: числова

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Сепал.Дължина 20. 0,87 5.82 0,83 4.4 5.1 5.75 6.4 7.9 ▇▇▇▃
Широчина 32 0,79 3.08 0,42 2.2 2.8 3.00 3.3 4.4 ▃▇▆▂
Венчелистче. Дължина 30 0,80 3.81 1.74 1.0 1.6 4.45 5.1 6.7 ▇▅▇▃
Венчелистче. Ширина 35 0,77 1.14 0,76 0,1 0,3 1.30 1.8 2.5 ▇▂▆▅▃

Но внимавайте! Преди да се впуснете стремглаво в изучаването на различните методи за приписване, е необходимо да знаете идентифицират липсва информация. Всъщност те не винаги са материализирани от ясна „NA“. Също така е полезно да се разбере причините.

Защо имам липсващи данни ?

Защото все още не живеем в най-добрия от всички възможни светове (без майтап!), много фактори могат да бъдат взети предвид, в зависимост от естеството и произхода на вашите данни. Липсващите данни се класифицират според механизма, довел до тяхното отсъствие:

- MCAR: Липсва напълно на случаен принцип: Вероятността липсата на данни за променлива е независима от други променливи, като загуба на диск, който съдържа 10% от данните, изпускане на епруветка за кръвна проба, ...
- MAR: Липсва случайно: Вероятността липсата на данни за променлива зависи от другите наблюдавани променливи, но не и от въпросната променлива. Например измерването на теглото зависи от възрастта (т.е. възрастните са с по-малко тегло от децата).
- MNAR: Липсва не на случаен принцип: Вероятността липсата на данни за дадена променлива зависи от ненаблюдаваната стойност. Това е примерът на хора с високи доходи, които отговарят по-малко на въпроса за заплатата си, или ХИВ-позитивни пациенти, които ще отговарят по-малко на въпроса за ХИВ-позитивния статус.

Липсващи данни, знайте как да ги разпознаете

"NA" е символът за липсващи данни в R, както много други езици (не го бъркайте с "NaN", което означава "не число", което може да се появи при разделяне на нула например). Но липсващите данни не винаги се предават на NA. По-долу е изчерпателен списък на случаите, които може да срещнем:

  • Най-лесният случай за идентифициране е празен символ или интервал за променливи от типа низ. Също така е възможно да се наложи да се справите с "няма данни".
  • В същия тип случаи, но за числовите променливи, човек редовно намира "999", а други доброволно несъвместими числа.
  • Липсващи стойности също липсват стойности
  • Във времеви редове няколко случая:
    • Последното наблюдение се повтаря, докато се наблюдават нови данни
    • Повтарят се цели последователности: предходен ден/седмица/месец
    • 0 вместо NA или понякога друга ниска постоянна стойност

В определен брой случаи, споменати по-горе, по-специално повторението на последователностите, ние сме в ситуацията, когато данните вече са обработени от трета страна, така че да не липсват. Откриването им може да представлява истинско предизвикателство, тъй като методът на заместване, използван априори, може да не е най-адекватният (заместването на липсваща стойност с нула, когато е променлива, чиито стойности винаги са между 100 и 150, не може наистина да се счита за добра идея). Трябва да имаме предвид, че без качествени данни (и следователно без подходящ метод за управление на липсващи данни) ще бъде невъзможно да осмислим нашите анализи.

Визуализация на липсващи данни

„Визуализирайте нещо, което не съществува ... (но какво сте пушили?)“ Ще си помислите ... Всъщност има много R пакети, които имат функции, посветени на графично представяне на липсващи данни - така че не, това не е луда идея. Идеята е да разберем липсващите ни данни, да определим моделите, ако има такива.