Régression linéaire
méthode statistique / De Wikipedia, l'encyclopédie encyclopedia
Cher Wikiwand IA, Faisons court en répondant simplement à ces questions clés :
Pouvez-vous énumérer les principaux faits et statistiques sur Régression linéaire?
Résumez cet article pour un enfant de 10 ans
Pour les articles homonymes, voir Régression.
En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives.
Le fond de cet article de mathématiques est à vérifier ().
Améliorez-le ou discutez des points à vérifier. Si vous venez d’apposer le bandeau, merci d’indiquer ici les points à vérifier.
Type |
Type of statistical method (d), regression (en), régression |
---|---|
Inventeur | |
Aspect de |
On parle aussi de modèle linéaire ou de modèle de régression linéaire.
Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
En général, le modèle de régression linéaire désigne un modèle dans lequel l'espérance conditionnelle de y connaissant x est une fonction affine des paramètres. Cependant, on peut aussi considérer des modèles dans lesquels c'est la médiane conditionnelle de y connaissant x ou n'importe quel quantile de la distribution de y connaissant x qui est une fonction affine des paramètres[1].
Le modèle de régression linéaire est souvent estimé par la méthode des moindres carrés mais il existe aussi de nombreuses autres méthodes pour estimer ce modèle. On peut par exemple estimer le modèle par maximum de vraisemblance ou encore par inférence bayésienne.
Bien qu'ils soient souvent présentés ensemble, le modèle linéaire et la méthode des moindres carrés ne désignent pas la même chose. Le modèle linéaire désigne une classe de modèles qui peuvent être estimés par un grand nombre de méthodes, et la méthode des moindres carrés désigne une méthode d'estimation. Elle peut être utilisée pour estimer différents types de modèles.
Ruđer Josip Bošković est le premier scientifique à calculer les coefficients de régression linéaire, en 1755-1757, quand il entreprit de mesurer la longueur de cinq méridiens terrestres en minimisant la somme des valeurs absolues[3]. Pierre-Simon de Laplace utilise cette méthode pour mesurer les méridiens dans « Sur les degrés mesurés des méridiens et sur les longueurs observées sur pendule » en 1789[3]. La première utilisation de la méthode des moindres carrés est attribuée à Adrien-Marie Legendre en 1805 [4] ou à Carl Friedrich Gauss qui dit l'avoir utilisée à partir de 1795[3].
Carl Friedrich Gauss démontre en 1821 le théorème connu aujourd'hui sous le nom de théorème de Gauss-Markov qui exprime sous certaines conditions la qualité des estimateurs ; Andrei Markov le redécouvre en 1900[5].
La paternité de l'expression « régression linéaire » revient à Francis Galton qui, dans un article de 1886[3], constate un phénomène de « régression vers la moyenne »[6] de la taille des fils en fonction de la taille des pères.
Plus tard la colinéarité des variables explicatives est devenue un sujet de recherche important. En 1970, Arthur E. Hoerl et Robert W. Kennard proposent la régression pseudo-orthogonale (Ridge Regression), une des méthodes d'estimation conçues pour pallier la présence de colinéarité de certaines variables explicatives en imposant des contraintes sur les coefficients[7].
La méthode du lasso (Lasso Regression), ayant le même objectif en utilisant une technique analogue, a été créée en 1996 par Robert Tibshirani[8].
Avec les méthodes de régression sur composantes (régression des moindres carrés partiels (PLS) et régression sur composantes principales), les algorithmes recherchent des variables explicatives indépendantes liées aux variables initiales, puis estiment les coefficients de régression sur les nouvelles variables[9].
Comme les autres modèles de régression, le modèle de régression linéaire est aussi bien utilisé pour chercher à prédire un phénomène que pour chercher à l'expliquer.
Après avoir estimé un modèle de régression linéaire, on peut prédire quel serait le niveau de y pour des valeurs particulières de x.
Il permet également d'estimer l'effet d'une ou plusieurs variables sur une autre en contrôlant par un ensemble de facteurs. Par exemple, dans le domaine des sciences de l'éducation, on peut évaluer l'effet de la taille des classes sur les performances scolaires des enfants en contrôlant par la catégorie socio-professionnelle des parents ou par l'emplacement géographique de l'établissement. Sous certaines hypothèses restrictives, cet effet peut être considéré comme un effet causal.
En apprentissage statistique, la méthode de régression linéaire est considérée comme une méthode d'apprentissage supervisé utilisée pour prédire une variable quantitative[10].
Dans cette perspective, on entraîne généralement le modèle sur un échantillon d'apprentissage et on teste ensuite les performances prédictives du modèle sur un échantillon de test.
Notations
On rencontre principalement trois types de notations[11].
Notation simple (ou scalaire)
On considère le modèle pour l'individu i. Pour chaque individu, la variable expliquée s'écrit comme une fonction linéaire des variables explicatives.
où yi et les xi,j sont fixes et εi représente l'erreur.
Notation vectorielle
La notation vectorielle est similaire à la notation simple mais on utilise la notation vectorielle pour synthétiser la notation. Cette notation est pratique lorsqu'il y a un grand nombre de variables explicatives. On définit β le vecteur des paramètres du modèle et xi' le vecteur ligne des variables explicatives pour l'individu i . Le modèle se réécrit alors de la manière suivante[12] :
Notation matricielle
Enfin, on rencontre aussi souvent une notation matricielle. Ici, on écrit le modèle pour chacun des n individus présents dans l'échantillon. Le modèle s'écrit alors[13] :
avec
Terminologie
Le modèle linéaire est utilisé dans un grand nombre de champs disciplinaires. Il en résulte une grande variété dans la terminologie. Soit le modèle suivant :
La variable Y est appelée variable expliquée, variable dépendante, variable endogène ou encore réponse. Les variables X sont appelées variables explicatives, variable indépendante, variables exogènes ou encore prédicteurs. ε est appelé terme d'erreur ou perturbation.
On note généralement le vecteur des paramètres estimés. On définit la valeur prédite ou ajustée et le résidu comme la différence entre la valeur observée et la valeur prédite : .
On définit aussi la somme des carrés des résidus (SCR, ou SSR en anglais) comme la somme sur toutes les observations des carrés des résidus :
Modèle linéaire simple
On appelle généralement modèle linéaire simple un modèle de régression linéaire avec une seule variable explicative[14]. Ce modèle est souvent présenté dans les manuels de statistiques à des fins pédagogiques, sous le titre d'ajustement affine.
On a donc deux variables aléatoires, une variable expliquée Y, qui est un scalaire, une variable explicative X, également scalaire. On dispose de n réalisations de ces variables, (xi)1 ≤ i ≤ n et (yi)1 ≤ i ≤ n, soit :
où εi est le terme d'erreur ; chaque terme d'erreur lui-même est une réalisation d'une variable aléatoire Ei.
Droite de régression
Dans le cadre d'un modèle linéaire simple, on peut représenter graphiquement la relation entre x et y à travers un nuage de points. L'estimation du modèle linéaire permet de tracer la droite de régression, d'équation . Le paramètre β0 représente l'ordonnée à l'origine et β1 le coefficient directeur de la droite.
Modèle linéaire multiple
Par opposition au modèle de régression linéaire simple, on définit le modèle de régression linéaire multiple comme tout modèle de régression linéaire avec au moins deux variables explicatives.
Les hypothèses de Gauss-Markov et les hypothèses de normalité garantissent des propriétés particulièrement intéressantes des estimateurs des coefficients de régression[5]. Les hypothèses peuvent s'exprimer différemment selon qu'il s'agisse de la régression linéaire simple ou multiple, ou bien selon que les [Note 1] sont des valeurs constantes (comme une unité de temps par exemple), ou un échantillon des valeurs d'une variable aléatoire.
Non colinéarité des variables explicatives
Cette hypothèse suppose qu'aucune des variables explicatives du modèle ne peut s'écrire comme une combinaison linéaire des autres variables. Ce qui revient à inversible avec xi' la transposée du vecteur xi en notation vectorielle et à inversible avec X' la transposée de la matrice X en notation matricielle. Cette condition est souvent exprimée par le fait que la matrice X est de rang maximum.
Indépendance des erreurs
Les ε1, ε2, ... εn sont indépendants.
Les termes d'erreur ne sont donc pas corrélés entre eux. Formellement, . Cette hypothèse est souvent violée lorsqu'il s'agit de séries temporelles où les erreurs sont souvent dites autocorrélées[15].
Exogénéité
On dit que les variables explicatives sont exogènes si elles ne sont pas corrélées au terme d'erreur. Ce qu'on note, pour le cas où la variable explicative est aléatoire, en notation vectorielle et en notation matricielle où [Note 1]. Ceci implique que les erreurs sont centrées. Si les variables X sont constantes ceci est noté [5].
Homoscédasticité
Les termes d'erreurs sont supposés de variance constante, ce qui se traduit, si l'hypothèse précédente est vérifiée, par si X est une variable aléatoire ou un ensemble de variables aléatoires, et par sinon[5].
Si les deux précédentes hypothèses sont vérifiées, on peut l'écrire sous forme matricielle :
avec In la matrice identité de taille n.
Normalité des termes d'erreur
Une hypothèse plus forte que les premières est celle consistant à dire que les termes d'erreurs suivent une loi normale, centrées, de variance σ2 soit, en notation vectorielle et sous forme matricielle .
Hiérarchie des hypothèses
À noter que si l'hypothèse de non colinéarité n'est pas vérifiée, l'estimation du modèle est impossible (elle nécessiterait d'inverser une matrice singulière) alors que pour toutes les autres hypothèses l'estimation est possible mais donne un estimateur biaisé et/ou non efficace (à variance non minimale) mais il existe des corrections possibles. La normalité des erreurs est quant à elle non obligatoire mais permet de tirer de bonnes propriétés.
Le modèle linéaire peut être estimé par la méthode du maximum de vraisemblance, la méthode des moindres carrés, la méthode des moments ou encore par des méthodes bayésiennes[Note 2].
La méthode des moindres carrés est très populaire et très souvent présentée avec le modèle linéaire[Note 3].
Estimateur des moindres carrés
Dans le cas le plus standard, où les termes d'erreurs sont indépendants et identiquement distribués (iid), l'estimateur des moindres carrés ordinaires est le plus efficace des estimateurs linéaires sans biais (théorème de Gauss-Markov).
Lorsque les termes d'erreurs ne sont pas tous de même variance et/ou qu'ils sont corrélés, on utilise la méthode des moindres carrés généralisés ou des moindres carrés quasi-généralisés.
Estimateur des moindres carrés ordinaires
Sous les hypothèses de Gauss et Markov, le modèle peut être estimé par la méthode des moindres carrés ordinaires. L'estimateur des moindres carrés ordinaires peut s'écrire :
sous forme vectorielle ou
sous forme matricielle[13].
D'après le théorème de Gauss-Markov, l'estimateur des moindres carrés ordinaires est le meilleur estimateur linéaire sans biais du vecteur des coefficients β[16],[17].
Sous l'hypothèse de normalité des termes d'erreur, l'estimateur des moindres carrés est aussi l'estimateur du maximum de vraisemblance[18].
Application dans le cas d'un modèle de régression linéaire simple
L'estimateur des moindres carrés ordinaires est la solution du programme de minimisation de la somme des carrés des écarts entre les valeurs prédites et les valeurs observées par rapport aux deux paramètres β0 et β1[19] (β0 est l'ordonnée à l'origine et β1 est la pente de la droite de régression) :
Le problème admet une solution analytique qui s'obtient en remarquant que, la fonction S(β0, β1) étant différentiable, le minimum de S est le point où son gradient s'annule. On a :
avec la moyenne empirique des xi et la moyenne empirique des yi.
On peut également exprimer le résultat de la manière suivante :
Estimation du modèle par les moindres carrés généralisés et quasi-généralisés
Si on note Σ la matrice de variance-covariance du vecteur des perturbations ε, on peut définir l'estimateur des moindres carrés généralisés[20] :
L'estimateur des moindres carrés généralisés suppose que l'on connaisse la matrice de variance-covariance des termes d'erreur. Généralement, cette matrice est inconnue et doit elle-même être estimée. Dans ce cas, on parle alors de l'estimateur des moindres carrés quasi-généralisés.
Pour évaluer la qualité de la prédiction, on peut utiliser différents critères.
Dans un premier temps rappelons que :
- est la variation expliquée par la régression (Sum of Squares Explained, en français SCE Somme des Carrés Expliquée [par la régression]).
- est la variation expliquée par les résidus (Sum of Squared Residuals, en français SCR Somme des Carrés Résiduelle).
- est la variation totale (Sum of Squares Total, en français SCT Somme des Carrés Totale).
Nous pouvons alors définir le coefficient de détermination (R2) comme le ratio entre la somme des carrés des écarts à la moyenne des valeurs prédites par la régression et la somme des carrés des écarts à la moyenne totale :
Le coefficient de détermination varie entre 0 et 1. Lorsqu'il est proche de 0, le pouvoir prédictif du modèle est faible et lorsqu'il est proche de 1, le pouvoir prédictif du modèle est fort.
Test de Fisher
Le test de Fisher permet de tester la pertinence statistique de toute restriction linéaire sur les coefficients de la régression.
En particulier, le test de Fisher permet de réaliser un test de nullité jointe de l'ensemble des paramètres[21].
Dans ce cas, on teste l'hypothèse
contre l'hypothèse
Dans ce cas, on peut montrer que la statistique de test s'écrit :
La statistique de test F suit une loi de Fisher de paramètres (K, n-K-1).
Test de Student
Le test de Student permet de tester si l'un des paramètres est égal à une valeur précise. En particulier, il permet de tester la nullité de chacun des paramètres.
Test de Chow
Le test de Chow permet de tester la stabilité des coefficients du modèle entre deux sous-échantillons de l'échantillon de données. C'est une application du test de Fisher.
Test d'autocorrélation des termes d'erreur
Le test de Durbin-Watson permet de tester l'autocorrélation des termes d'erreur.
Test d'hétéroscédasticité
Le test de Breusch-Pagan permet de tester l'hypothèse d'homoscédasticité.