EN CONSTRUCTION
La gestion des données manquantes dans R est centrale et peut entraîner d’importantes erreurs. R considère une donnée comme manquante si elle est codée en NA. Si vous avez des variables texte avec écrit “manquant”, “missing” ou même un blanc comme ” ” ou ““, R n’interprétera pas ces valeurs comme des données manquantes mais comme des valeurs. C’est à vous des convertir ces valeurs en NA pour qu’elles soient automatiquement considérées comme manquantes par R.
Les principales difficultés autour des données manquantes :
Exemple de difficultés :
summary(airquality)
iris %>% summarise(moyenne=mean(Sepal.Width))
airquality %>% summarise(moyenne=mean(Ozone))
airquality %>% summarise(moyenne=mean(Ozone,na.rm = TRUE))
airquality %>% filter(Solar.R<20)
airquality %>% filter(Solar.R<20 | is.na(Solar.R))
lm(Ozone ~ Solar.R + Wind,data = airquality) %>% summary()
airquality %>% select(Ozone,Solar.R,Wind) %>% lm(Ozone ~ Solar.R + Wind,data = .) %>% summary()
airquality %>% count()
airquality %>% select(Ozone,Solar.R,Wind) %>% complete.cases() %>% sum()
airquality %>% mutate(in_model=complete.cases(.))
airquality %>% mutate(in_model=complete.cases(across(c(Ozone,Wind))))