Quelle est la différence entre la corrélation et la régression linéaire?

Lorsque l’on étudie la relation entre deux ou plusieurs variables numériques, il est important de connaître la différence entre la corrélation et la régression. Les similitudes/différences et les avantages/inconvénients de ces outils sont abordés ici avec des exemples de chacun.

La corrélation quantifie la direction et la force de la relation entre deux variables numériques, X et Y, et se situe toujours entre -1,0 et 1,0. La régression linéaire simple relie X à Y par le biais d’une équation de la forme Y = a + bX.

Principales similitudes

  • Les deux quantifient la direction et la force de la relation entre deux variables numériques.
  • Lorsque la corrélation (r) est négative, la pente de régression (b) sera négative.
  • Lorsque la corrélation est positive, la pente de régression sera positive.
  • La corrélation au carré (r2 ou R2) a une signification particulière dans la régression linéaire simple. Elle représente la proportion de la variation de Y expliquée par X.

Différences clés

  • La régression tente d’établir comment X fait varier Y et les résultats de l’analyse changeront si X et Y sont intervertis. Avec la corrélation, les variables X et Y sont interchangeables.
  • La régression suppose que X est fixe et sans erreur, comme une quantité de dose ou un réglage de température. Avec la corrélation, X et Y sont généralement toutes deux des variables aléatoires*, comme la taille et le poids ou la pression sanguine et la fréquence cardiaque.
  • La corrélation est une statistique unique, alors que la régression produit une équation entière.

Prism vous aide à gagner du temps et à faire des choix d’analyse plus appropriés. Essayez Prism gratuitement.

*La variable X peut être fixée avec la corrélation, mais les intervalles de confiance et les tests statistiques ne sont plus appropriés. Généralement, la régression est utilisée lorsque X est fixe.

Apprenez-en plus sur l’analyse de corrélation par rapport à l’analyse de régression avec cette vidéo de 365 Data Science

Avantage clé de la corrélation

  • La corrélation est un résumé plus concis (valeur unique) de la relation entre deux variables que la régression. En conséquence, de nombreuses corrélations par paire peuvent être visualisées ensemble en même temps dans un seul tableau.

Avantage clé de la régression

  • La régression fournit une analyse plus détaillée qui comprend une équation qui peut être utilisée pour la prédiction et/ou l’optimisation.

À titre d’exemple, parcourons le tutoriel Prism sur la matrice de corrélation qui contient un ensemble de données automobiles dont les variables sont le coût en USD, le MPG, la puissance en chevaux et le poids en livres. Au lieu d’examiner uniquement la corrélation entre un X et un Y, nous pouvons générer toutes les corrélations par paire à l’aide de la matrice de corrélation de Prism. Si vous n’avez pas accès à Prism, téléchargez la version d’essai gratuite de 30 jours ici. Voici les étapes à suivre dans Prism:

  1. Ouvrir Prism et sélectionner Variables multiples dans le panneau latéral gauche.
  2. Choisir Démarrer avec des données échantillons pour suivre un tutoriel et sélectionner Matrice de corrélation.
  3. Cliquer sur Créer.
  4. Cliquez sur Analyser.
  5. Sélectionnez Analyses de variables multiples > Matrice de corrélation.
  6. Cliquez deux fois sur OK.
  7. Sur le panneau latéral gauche, double-cliquez sur le graphique intitulé Pearson r : Corrélation des données 1.

La matrice de corrélation Prism affiche toutes les corrélations par paire pour cet ensemble de variables.

  • Les cases rouges représentent les variables qui ont une relation négative.
  • Les cases bleues représentent les variables qui ont une relation positive
  • Plus la case est sombre, plus la corrélation est proche de 1 négatif ou positif.
  • Ne tenez pas compte des cases diagonales bleu foncé car elles auront toujours une corrélation de 1,00.

Résultats clés :

  • La puissance et le MPG ont une forte relation négative (r = -0,74), les voitures plus puissantes ont un MPG plus faible.
  • La puissance et le coût ont une forte relation positive (r = 0,88), les voitures plus puissantes coûtent plus cher.

Notez que la matrice est symétrique. Par exemple, la corrélation entre « poids en livres » et « coût en USD » dans le coin inférieur gauche (0,52) est la même que la corrélation entre « coût en USD » et « poids en livres » dans le coin supérieur droit (0,52). Cela renforce le fait que X et Y sont interchangeables en matière de corrélation. Les corrélations le long de la diagonale seront toujours de 1,00 et une variable est toujours parfaitement corrélée avec elle-même.

Lorsque vous interprétez des corrélations, vous devez être conscient des quatre explications possibles pour une forte corrélation :

  • Des changements dans la variable X entraînent un changement la valeur de la variable Y.
  • Les changements de la variable Y entraînent un changement de la valeur de la variable X.
  • Les changements d’une autre variable influencent à la fois X et Y.
  • X et Y ne sont pas vraiment corrélés du tout, et vous avez juste observé une si forte corrélation par hasard. La valeur P quantifie la probabilité que cela se produise.

Exemple de régression

La puissance des rayons UV varie selon la latitude. Plus la latitude est élevée, moins l’exposition au soleil est importante, ce qui correspond à un risque de cancer de la peau plus faible. L’endroit où vous vivez peut donc avoir un impact sur votre risque de cancer de la peau. Deux variables, le taux de mortalité par cancer et la latitude, ont été saisies dans le tableau XY de Prism. Le graphique Prism (à droite) montre la relation entre le taux de mortalité par cancer de la peau (Y) et la latitude au centre d’un état (X). Il est logique de calculer la corrélation entre ces variables, mais en allant plus loin, effectuons une analyse de régression et obtenons une équation prédictive.

La relation entre X et Y est résumée par la ligne de régression ajustée sur le graphique avec l’équation : taux de mortalité = 389,2 – 5,98*latitude. Sur la base de la pente de -5,98, chaque augmentation de 1 degré de latitude diminue les décès dus au cancer de la peau d’environ 6 pour 10 millions de personnes.

Puisque l’analyse de régression produit une équation, contrairement à la corrélation, elle peut être utilisée pour la prédiction. Par exemple, une ville située à la latitude 40 devrait avoir 389,2 – 5,98*40 = 150 décès par 10 millions dus au cancer de la peau chaque année.La régression permet également d’interpréter les coefficients du modèle :

  • Pente : chaque augmentation d’un degré de la latitude diminue la mortalité de 5,98 décès par 10 millions.
  • Interception : à 0 degré de latitude (Équateur), le modèle prévoit 389,2 décès pour 10 millions. Bien que, comme il n’y a pas de données à l’intercept, cette prédiction repose fortement sur le maintien de la relation sous sa forme linéaire à 0,

Améliorez votre régression linéaire avec Prism. Commencez votre essai gratuit dès aujourd’hui.

Résumé et informations supplémentaires

En résumé, la corrélation et la régression présentent de nombreuses similitudes et quelques différences importantes. La régression est principalement utilisée pour construire des modèles/équations permettant de prédire une réponse clé, Y, à partir d’un ensemble de variables prédictives (X). La corrélation est principalement utilisée pour résumer rapidement et de manière concise la direction et la force des relations entre un ensemble de 2 variables numériques ou plus.

Le tableau ci-dessous résume les principales similitudes et différences entre la corrélation et la régression.

.

.

.

Sujet

Corrélation

Régression

Quand utiliser

Pour un résumé rapide et simple de la direction et de la force des relations par paire entre deux ou plusieurs variables numériques.

Pour prédire, optimiser ou expliquer une réponse numérique Y à partir de X, une variable numérique dont on pense qu’elle influence Y.

Quantifie la direction de la relation

Oui

Oui

Quantifie la force de la relation

. relation

Oui

Oui

X et Y sont interchangeables

Oui

Non

Y Aléatoire

Oui

Oui

X Aléatoire

Oui

Non

Prédiction et optimisation

Non

Oui

Equation

Non

Oui

Non

Extension aux ajustements curvilignes

Non

Oui

Cause et effet

Non

Tentative d’établissement

Apprenez-en plus sur la façon de choisir entre la la régression et la corrélation sur Prism Academy

Tester votre compréhension de la corrélation et de la régression

Quel outil , corrélation ou régression, utiliseriez-vous dans chacun de ces scénarios :

  1. Vous avez deux systèmes de mesure et vous voulez voir dans quelle mesure ils concordent l’un avec l’autre. Vous mesurez donc les 20 mêmes pièces avec chaque système de mesure.
  2. Vous voulez prédire la pression artérielle pour différentes doses d’un médicament.
  3. Un essai clinique a plusieurs paramètres et vous voulez savoir quelle paire de paramètres a la relation linéaire la plus forte.
  4. Vous voulez savoir de combien la réponse (Y) change pour chaque augmentation d’une unité de (X).

Réponses:

  1. Ces deux variables sont des réponses interchangeables, donc la corrélation serait la plus appropriée.
  2. La régression est l’outil approprié pour la prédiction.
  3. Une matrice de corrélation vous permettrait de trouver facilement la relation linéaire la plus forte parmi toutes les paires de variables.
  4. La pente dans une analyse de régression vous donnera cette information.

Démarrez votre essai gratuit de Prism aujourd’hui

.