Mis a jour le 2016-05-22, 16:22

Régression linéaire

C'est un modèle de type y = b0 + b1.x1 + b2.x2 + e si par exemple on a 2 variables explicatives x1 et x2 et y est la variable dépendante. e est l'erreur sur la prédiction et il s'agit de trouver les meilleurs coefficients b0, b1 et b2 pour minimiser e
La fonction lm permet de calculer la régression linéaire d'une variable dépendante numérique en fonction de variables explicatives.
Exemple de régression linéaire toute simple :
x <- c(4, 6, 3, 5, 1, 9)
y <- 2 * x + 1 + rnorm(6, 0, 0.3)
lm(y ~ x)
donne par exemple :
Call:
lm(y ~ x)

Coefficients:
(Intercept)            x  
     0.8384       2.0289  
Appel de lm avec un data frame :
L'objet renvoyé par lm est de la classe "lm" et a les attributs suivants : lin <- lm(y ~ x, fr) :
Intervalle de confiance sur les coefficients : on peut avoir l'intervalle de confiance sur les coefficients , avec une proba alpha = 0.95 :
Prédiction de valeurs :
predict(lin, newdata = data.frame(x = c(1, 2, 3, 4, 5))) : renvoie un vecteur des valeurs prédites (noms des variables explicatives doivent être les mêmes dans le data frame.
régression multiple : si fr est un data frame de variables x, y et z :
Traçage de différents graphes à partir du modèle : si par exemple lin <- lm(y ~ x)
Détermination des variables les plus importantes pour le modèle : le principe est la minimisation du critère d'information d'Akaike (AIC, Akaike Information Criteria) qui indique l'équilibre entre la précision d'un modèle et sa complexité :
Intervalle de prédiction ou de confiance :
Régression linéaire passant par un point autre que l'origine, par exemple de coordonnées (x0, y0) :

Copyright Aymeric Duclert
programmer en R, tutoriel R, graphes en R