Qual è la differenza tra correlazione e regressione lineare?

Quando si studia la relazione tra due o più variabili numeriche, è importante conoscere la differenza tra correlazione e regressione. Le somiglianze/differenze e i vantaggi/svantaggi di questi strumenti sono discussi qui insieme ad esempi di ciascuno.

La correlazione quantifica la direzione e la forza della relazione tra due variabili numeriche, X e Y, e sta sempre tra -1,0 e 1,0. La regressione lineare semplice mette in relazione X e Y attraverso un’equazione della forma Y = a + bX.

Simili chiave

  • Entrambi quantificano la direzione e la forza della relazione tra due variabili numeriche.
  • Quando la correlazione (r) è negativa, la pendenza della regressione (b) sarà negativa.
  • Quando la correlazione è positiva, la pendenza di regressione sarà positiva.
  • La correlazione al quadrato (r2 o R2) ha un significato speciale nella regressione lineare semplice. Rappresenta la proporzione di variazione in Y spiegata da X.

Differenze chiave

  • La regressione cerca di stabilire come X fa cambiare Y e i risultati dell’analisi cambieranno se X e Y vengono scambiati. Con la correlazione, le variabili X e Y sono intercambiabili.
  • La regressione presuppone che X sia fisso e senza errori, come la quantità di dose o l’impostazione della temperatura. Con la correlazione, X e Y sono tipicamente entrambe variabili casuali*, come altezza e peso o pressione sanguigna e frequenza cardiaca.
  • La correlazione è una singola statistica, mentre la regressione produce un’intera equazione.

Prisma ti aiuta a risparmiare tempo e a fare scelte di analisi più appropriate. Prova Prism gratuitamente.

*La variabile X può essere fissata con la correlazione, ma gli intervalli di confidenza e i test statistici non sono più appropriati. In genere si usa la regressione quando X è fissa.

Scopri di più sull’analisi di correlazione e regressione con questo video di 365 Data Science

Vantaggi chiave della correlazione

  • La correlazione è un riassunto più conciso (valore singolo) della relazione tra due variabili rispetto alla regressione. Di conseguenza, molte correlazioni a coppie possono essere visualizzate insieme allo stesso tempo in una tabella.

Vantaggi chiave della regressione

  • La regressione fornisce un’analisi più dettagliata che include un’equazione che può essere usata per la previsione e/o l’ottimizzazione.

Come esempio, esaminiamo il tutorial di Prisma sulla matrice di correlazione che contiene un dataset automobilistico con costo in dollari, MPG, potenza e peso in libbre come variabili. Invece di guardare solo la correlazione tra una X e una Y, possiamo generare tutte le correlazioni a coppie usando la matrice di correlazione di Prisma. Se non avete accesso a Prism, scaricate la prova gratuita di 30 giorni qui. Questi sono i passi in Prism:

  1. Aprite Prism e selezionate Multiple Variables dal pannello laterale sinistro.
  2. Scegliete Start with sample data per seguire un tutorial e selezionate Correlation matrix.
  3. Cliccate Create.
  4. Clicca Analyze.
  5. Seleziona Multiple variable analyses > Correlation matrix.
  6. Clicca due volte OK.
  7. Sul pannello laterale sinistro, fai doppio clic sul grafico intitolato Pearson r: Correlazione dei dati 1.

La matrice di correlazione Prisma visualizza tutte le correlazioni a coppie per questo set di variabili.

  • Le caselle rosse rappresentano le variabili che hanno una relazione negativa.
  • Le caselle blu rappresentano le variabili che hanno una relazione positiva
  • Più scura è la casella, più la correlazione è vicina a 1 negativo o positivo.
  • Ignorate le caselle diagonali blu scuro poiché avranno sempre una correlazione di 1,00.

I risultati principali:

  • Potenza e MPG hanno una forte relazione negativa (r = -0.74), auto con più cavalli hanno un MPG più basso.
  • Potenza e costo hanno una forte relazione positiva (r = 0.88), auto con più cavalli costano di più.

Nota che la matrice è simmetrica. Per esempio, la correlazione tra “peso in libbre” e “costo in USD” in basso a sinistra (0,52) è la stessa della correlazione tra “costo in USD” e “peso in libbre” in alto a destra (0,52). Questo rafforza il fatto che X e Y sono intercambiabili per quanto riguarda la correlazione. Le correlazioni lungo la diagonale saranno sempre 1,00 e una variabile è sempre perfettamente correlata con se stessa.

Quando si interpretano le correlazioni, si dovrebbe essere consapevoli delle quattro possibili spiegazioni per una forte correlazione:

  • Cambiamenti nella variabile X causano un cambiamento nel valore della variabile Y.
  • Cambiamenti nella variabile Y causano un cambiamento nel valore della variabile X.
  • Cambiamenti in un’altra variabile influenzano sia X che Y.
  • X e Y non sono realmente correlate, e avete osservato una correlazione così forte per caso. Il valore P quantifica la probabilità che questo possa accadere.

Esempio di regressione

La forza dei raggi UV varia in base alla latitudine. Più alta è la latitudine, minore è l’esposizione al sole, che corrisponde a un minor rischio di cancro della pelle. Quindi dove si vive può avere un impatto sul rischio di cancro della pelle. Due variabili, il tasso di mortalità per cancro e la latitudine, sono state inserite nella tabella XY di Prism. Il grafico di Prism (a destra) mostra la relazione tra il tasso di mortalità per cancro della pelle (Y) e la latitudine al centro di uno stato (X). Ha senso calcolare la correlazione tra queste variabili, ma facendo un passo avanti, eseguiamo un’analisi di regressione e otteniamo un’equazione predittiva.

La relazione tra X e Y è riassunta dalla linea di regressione adattata sul grafico con equazione: tasso di mortalità = 389.2 – 5.98*latitudine. In base alla pendenza di -5,98, ogni aumento di 1 grado di latitudine diminuisce le morti per cancro della pelle di circa 6 su 10 milioni di persone.

Perché l’analisi di regressione produce un’equazione, a differenza della correlazione, può essere usata per la previsione. Per esempio, una città alla latitudine 40 dovrebbe avere 389,2 – 5,98*40 = 150 morti su 10 milioni per cancro alla pelle ogni anno.La regressione permette anche l’interpretazione dei coefficienti del modello:

  • Pendenza: ogni aumento di un grado di latitudine diminuisce la mortalità di 5,98 morti su 10 milioni.
  • Intercetta: a 0 gradi di latitudine (Equatore), il modello prevede 389,2 morti su 10 milioni. Anche se, poiché non ci sono dati all’intercetta, questa previsione si basa molto sul fatto che la relazione mantenga la sua forma lineare a 0.

Migliora la tua regressione lineare con Prism. Inizia la tua prova gratuita oggi stesso.

Sommario e informazioni aggiuntive

In sintesi, correlazione e regressione hanno molte somiglianze e alcune importanti differenze. La regressione è usata principalmente per costruire modelli/equazioni per prevedere una risposta chiave, Y, da un insieme di variabili predittive (X). La correlazione è usata principalmente per riassumere rapidamente e concisamente la direzione e la forza delle relazioni tra un insieme di 2 o più variabili numeriche.

La tabella sottostante riassume le principali somiglianze e differenze tra correlazione e regressione.

Topic

Correlazione

Regressione

Quando usare

Per un rapido e semplice riassunto della direzione e della forza delle relazioni a coppie tra due o più variabili numeriche.

Per prevedere, ottimizzare o spiegare una risposta numerica Y da X, una variabile numerica che si pensa possa influenzare Y.

Quantifica la direzione della relazione

Quantifica la forza della relazione

X e Y intercambiabili

No

Y Casuale

X Casuale

No

Previsione e ottimizzazione

No

Equazione

No

Estensione ai fit curvilinei

No

Cause and effect

No

Tenta di stabilire

Scopri di più su come scegliere tra regressione e correlazione su Prism Academy

Testate la vostra comprensione di Correlazione e Regressione

Quale strumento, correlazione o regressione, useresti in ciascuno di questi scenari:

  1. Hai due sistemi di misurazione e vuoi vedere quanto sono in accordo tra loro. Quindi misurate gli stessi 20 pezzi con ogni sistema di misura.
  2. Vuoi prevedere la pressione sanguigna per diverse dosi di un farmaco.
  3. Uno studio clinico ha più endpoint e vuoi sapere quale coppia di endpoint ha la relazione lineare più forte.
  4. Vuoi sapere quanto cambia la risposta (Y) per ogni aumento di una unità in (X).

Risposte:

  1. Queste due variabili sono risposte intercambiabili, quindi la correlazione sarebbe più appropriata.
  2. La regressione è lo strumento giusto per la previsione.
  3. Una matrice di correlazione ti permetterebbe di trovare facilmente la relazione lineare più forte tra tutte le coppie di variabili.
  4. La pendenza in un’analisi di regressione ti darà questa informazione.

Inizia la tua prova gratuita di Prisma oggi