Qual é a diferença entre correlação e regressão linear?

Ao investigar a relação entre duas ou mais variáveis numéricas, é importante conhecer a diferença entre correlação e regressão. As semelhanças/diferenças e vantagens/desvantagens destas ferramentas são aqui discutidas juntamente com exemplos de cada uma.

A correlação quantifica a direcção e força da relação entre duas variáveis numéricas, X e Y, e situa-se sempre entre -1,0 e 1,0. A regressão linear simples relaciona X com Y através de uma equação da forma Y = a + bX.

Semelhanças-chave

  • Calcule a direcção e a força da relação entre duas variáveis numéricas.
  • Quando a correlação (r) é negativa, a inclinação de regressão (b) será negativa.
  • Quando a correlação é positiva, a inclinação da regressão será positiva.
  • A correlação ao quadrado (r2 ou R2) tem um significado especial na regressão linear simples. Representa a proporção de variação em Y explicada por X.

Diferenças-chave

  • Tentativas de regressão para estabelecer como X causa a mudança de Y e os resultados da análise mudarão se X e Y forem trocados. Com correlação, as variáveis X e Y são permutáveis.
  • Regressão assume que X é fixo sem erro, tal como uma quantidade de dose ou uma definição de temperatura. Com correlação, X e Y são tipicamente ambas variáveis aleatórias*, tais como altura e peso ou pressão arterial e frequência cardíaca.
  • A correlação é uma única estatística, enquanto que a regressão produz uma equação inteira.

Prism ajuda a poupar tempo e a fazer escolhas de análise mais apropriadas. Experimente Prism gratuitamente.

*A variável X pode ser fixada com correlação, mas intervalos de confiança e testes estatísticos já não são apropriados. Tipicamente, a regressão é utilizada quando X é fixo.

Saiba mais sobre a análise de correlação vs regressão com este vídeo de 365 Data Science

Vantagem chave da correlação

  • p>correlação é um resumo mais conciso (valor único) da relação entre duas variáveis do que a regressão. Em resultado, muitas correlações de pares podem ser vistas em conjunto numa só tabela.

Vantagem chave da regressão

  • p>Regressão fornece uma análise mais detalhada que inclui uma equação que pode ser utilizada para previsão e/ou optimização.

Como exemplo, vejamos o tutorial de Prism sobre matriz de correlação que contém um conjunto de dados automóveis com Custo em USD, MPG, Cavalo-poder, e Peso em Libras como variáveis. Em vez de olharmos apenas para a correlação entre um X e um Y, podemos gerar todas as correlações em pares usando a matriz de correlação de Prism. Se não tiver acesso ao Prism, descarregue aqui o teste gratuito de 30 dias. Estes são os passos em Prism:

  1. Prisma Aberto e seleccionar Variáveis Múltiplas do painel do lado esquerdo.
  2. Escolha Iniciar com dados de amostra para seguir um tutorial e seleccionar Matriz de Correlação.
  3. Clique Criar.
  4. Click Analyze.
  5. Seleccionar análises de múltiplas variáveis > Matriz de correlação.
  6. li>Click OK duas vezes.li>No painel do lado esquerdo, clique duas vezes no gráfico intitulado Pearson r: Correlação dos dados 1.

A matriz de correlação de Prism mostra todas as correlações em pares para este conjunto de variáveis.

  • As caixas vermelhas representam variáveis que têm uma relação negativa.
  • As caixas azuis representam variáveis que têm uma relação positiva
  • Quanto mais escura a caixa, mais próxima a correlação é a negativa ou positiva 1.
  • Ignorar as caixas azuis escuras diagonais, uma vez que terão sempre uma correlação de 1,00.

Descobertas-chave:

  • Horsepower e MPG têm uma forte relação negativa (r = -0,74), carros de maior potência têm MPG mais baixo.
  • Horsepower e custo têm uma forte relação positiva (r = 0,88), carros de maior potência custam mais.

Nota que a matriz é simétrica. Por exemplo, a correlação entre “peso em libras” e “custo em USD” no canto inferior esquerdo (0,52) é a mesma que a correlação entre “custo em USD” e “peso em libras” no canto superior direito (0,52). Isto reforça o facto de que X e Y são permutáveis no que diz respeito à correlação. As correlações ao longo da diagonal serão sempre de 1,00 e uma variável está sempre perfeitamente correlacionada consigo mesma.

Quando interpretar correlações, deve estar ciente das quatro explicações possíveis para uma correlação forte:

  • Alterações na variável X provoca uma alteração do valor da variável Y.
  • Alterações na variável Y provoca uma alteração do valor da variável X.
  • Alterações noutra variável influenciam tanto X como Y.
  • X e Y não se correlacionam de todo, e apenas se observa uma correlação tão forte por acaso. O valor P quantifica a probabilidade de que isto possa ocorrer.

Exemplo de Regressão

A força dos raios UV varia de acordo com a latitude. Quanto maior a latitude, menor a exposição ao sol, o que corresponde a um menor risco de cancro da pele. Assim, onde se vive pode ter um impacto no risco de cancro da pele. Duas variáveis, taxa de mortalidade por cancro e latitude, foram introduzidas na tabela XY do Prism. O gráfico de Prism (à direita) mostra a relação entre a taxa de mortalidade do cancro da pele (Y) e a latitude no centro de um estado (X). Faz sentido calcular a correlação entre estas variáveis, mas levando-a um passo mais longe, vamos realizar uma análise de regressão e obter uma equação preditiva.

A relação entre X e Y é resumida pela linha de regressão ajustada no gráfico com equação: taxa de mortalidade = 389,2 – 5,98*latitude. Com base na inclinação de -5,98, cada aumento de 1 grau de latitude diminui as mortes devidas ao cancro de pele em aproximadamente 6 por 10 milhões de pessoas.

Desde que a análise de regressão produz uma equação, ao contrário da correlação, ela pode ser usada para previsão. Por exemplo, uma cidade na latitude 40 teria 389,2 – 5,98*40 = 150 mortes por 10 milhões de pessoas por ano devido a cancro de pele.A regressão também permite a interpretação dos coeficientes do modelo:

  • Inclinação: cada aumento de 1 grau na latitude diminui a mortalidade em 5,98 mortes por 10 milhões de pessoas.
  • Intercepção: a 0 graus de latitude (Equador), o modelo prevê 389,2 mortes por 10 milhões. Embora, uma vez que não existem dados na intercepção, esta previsão depende fortemente da relação mantendo a sua forma linear a 0,

Improve a sua regressão linear com Prism. Comece hoje o seu teste gratuito.

Sumário e Informação Adicional

Em resumo, correlação e regressão têm muitas semelhanças e algumas diferenças importantes. A regressão é usada principalmente para construir modelos/equações para prever uma resposta chave, Y, a partir de um conjunto de variáveis preditoras (X). A correlação é usada principalmente para resumir rápida e concisamente a direcção e força das relações entre um conjunto de 2 ou mais variáveis numéricas.

A tabela abaixo resume as principais semelhanças e diferenças entre correlação e regressão.

>>p>p>Quantifica a força de relação

>>p>p>X e Y intercambiáveis>>>p>p>sim>/td>>>>p>p>No>/td> >>p>X Random

>>p>p>Equação

>>p>Não>/td>>>p>sim>/p>>>/td>

>p>Topic/td>>>p>Correlação p>Regressão

Quando usar

Para um resumo rápido e simples da direcção e força das relações de par entre duas ou mais variáveis numéricas.

Para prever, optimizar, ou explicar uma resposta numérica Y de X, uma variável numérica pensada para influenciar Y.

p>Quantifica a direcção da relação>/td>>>>p>>p>>sim>>/td> p>sim>/p>>/td>
p>sim/td>>>p>sim/td>

Y Random

p>Y/td>>>>p>p>Y>/td>
p>Yes/td> p>>p>No/td>

Previsão e Optimização

Não

p>>Sim/td>
p>Não/td> p>p>Sim>/td>
p>Extensão para encaixes curvilíneos
p> Causa e efeito>/td>>>>p>Não>/td>

Attempts to establish

Saiba mais sobre como escolher entre regressão e correlação em Prism Academy

Teste a tua compreensão da Correlação e Regressão

Qual a ferramenta correlação ou regressão, utilizaria em cada um destes cenários:

  1. Você tem dois sistemas de medição e quer ver quão bem eles concordam um com o outro. Assim, mede-se as mesmas 20 partes com cada sistema de medição.
  2. Você quer prever a tensão arterial para diferentes doses de um fármaco.
  3. Um ensaio clínico tem múltiplos parâmetros e você quer saber qual o par de parâmetros que tem a relação linear mais forte.
  4. Quer saber quanto a resposta (Y) muda por cada aumento de uma unidade em (X).

Respostas:

  1. Estas duas variáveis são respostas intercambiáveis, pelo que a correlação seria mais apropriada.
  2. Regressão é a ferramenta certa para previsão.
  3. Uma matriz de correlação permitiria encontrar facilmente a relação linear mais forte entre todos os pares de variáveis.
  4. A inclinação numa análise de regressão dar-lhe-á esta informação.

Inicie hoje o seu teste gratuito do Prisma