¿Cuál es la diferencia entre correlación y regresión lineal?

Al investigar la relación entre dos o más variables numéricas, es importante conocer la diferencia entre correlación y regresión. Las similitudes/diferencias y las ventajas/desventajas de estas herramientas se discuten aquí junto con ejemplos de cada una.

La correlación cuantifica la dirección y la fuerza de la relación entre dos variables numéricas, X e Y, y siempre se encuentra entre -1,0 y 1,0. La regresión lineal simple relaciona X con Y a través de una ecuación de la forma Y = a + bX.

Principales similitudes

  • Ambos cuantifican la dirección y la fuerza de la relación entre dos variables numéricas.
  • Cuando la correlación (r) es negativa, la pendiente de la regresión (b) será negativa.
  • Cuando la correlación es positiva, la pendiente de la regresión será positiva.
  • La correlación al cuadrado (r2 o R2) tiene un significado especial en la regresión lineal simple. Representa la proporción de la variación en Y explicada por X.
    • Diferencias clave

      • La regresión intenta establecer cómo X hace cambiar a Y y los resultados del análisis cambiarán si X e Y se intercambian. Con la correlación, las variables X e Y son intercambiables.
      • La regresión asume que X es fija sin error, como una cantidad de dosis o un ajuste de temperatura. Con la correlación, X e Y suelen ser ambas variables aleatorias*, como la altura y el peso o la presión arterial y la frecuencia cardíaca.
      • La correlación es una estadística única, mientras que la regresión produce una ecuación completa.
        • Prism le ayuda a ahorrar tiempo y a tomar decisiones de análisis más adecuadas. Pruebe Prism de forma gratuita.

          *La variable X puede fijarse con la correlación, pero los intervalos de confianza y las pruebas estadísticas ya no son adecuados. Normalmente, se utiliza la regresión cuando X es fija.

          Aprenda más sobre el análisis de correlación vs regresión con este vídeo de 365 Data Science

          Ventaja clave de la correlación

          • La correlación es un resumen más conciso (un solo valor) de la relación entre dos variables que la regresión. Como resultado, se pueden ver muchas correlaciones por pares al mismo tiempo en una tabla.

          Ventaja clave de la regresión

          • La regresión proporciona un análisis más detallado que incluye una ecuación que puede utilizarse para la predicción y/o la optimización.

          Como ejemplo, repasemos el tutorial de Prism sobre la matriz de correlación que contiene un conjunto de datos de automoción con Coste en USD, MPG, Caballos de fuerza y Peso en libras como variables. En lugar de ver sólo la correlación entre una X y una Y, podemos generar todas las correlaciones por pares utilizando la matriz de correlación de Prism. Si no tiene acceso a Prism, descargue la prueba gratuita de 30 días aquí. Estos son los pasos en Prism:

  1. Abra Prism y seleccione Variables múltiples en el panel lateral izquierdo.
  2. Elija Empezar con datos de muestra para seguir un tutorial y seleccione Matriz de correlación.
  3. Haga clic en Crear.
  4. Haga clic en Analizar.
  5. Seleccione Análisis de variables múltiples > Matriz de correlación.
  6. Haga clic en Aceptar dos veces.
  7. En el panel lateral izquierdo, haga doble clic en el gráfico titulado Pearson r: Correlación de datos 1.

La matriz de correlación de Prism muestra todas las correlaciones por pares para este conjunto de variables.

  • Los recuadros rojos representan las variables que tienen una relación negativa.
  • Los recuadros azules representan las variables que tienen una relación positiva
  • Cuanto más oscuro sea el recuadro, más cerca estará la correlación de 1 negativo o positivo.
  • Ignora las cajas azules oscuras diagonales ya que siempre tendrán una correlación de 1,00.
    • Las principales conclusiones:

      • La potencia y el MPG tienen una fuerte relación negativa (r = -0,74), los coches de mayor potencia tienen menor MPG.
      • La potencia y el coste tienen una fuerte relación positiva (r = 0,88), los coches de mayor potencia cuestan más.
      • Nota que la matriz es simétrica. Por ejemplo, la correlación entre «peso en libras» y «coste en USD» en la esquina inferior izquierda (0,52) es la misma que la correlación entre «coste en USD» y «peso en libras» en la esquina superior derecha (0,52). Esto refuerza el hecho de que X e Y son intercambiables con respecto a la correlación. Las correlaciones a lo largo de la diagonal siempre serán 1,00 y una variable siempre está perfectamente correlacionada consigo misma.

        Al interpretar las correlaciones, debe tener en cuenta las cuatro posibles explicaciones de una correlación fuerte:

        • Los cambios en la variable X provocan un cambio el valor de la variable Y.
        • Los cambios en la variable Y provocan un cambio en el valor de la variable X.
        • Los cambios en otra variable influyen tanto en X como en Y.
        • X e Y no están realmente correlacionados en absoluto, y usted acaba de observar una correlación tan fuerte por casualidad. El valor P cuantifica la probabilidad de que esto pueda ocurrir.

        Ejemplo de regresión

        La fuerza de los rayos UV varía según la latitud. A mayor latitud, menor exposición al sol, lo que se corresponde con un menor riesgo de cáncer de piel. Por lo tanto, el lugar donde se vive puede influir en el riesgo de cáncer de piel. Se introdujeron dos variables, la tasa de mortalidad por cáncer y la latitud, en la tabla XY de Prism. El gráfico de Prism (derecha) muestra la relación entre la tasa de mortalidad por cáncer de piel (Y) y la latitud en el centro de un estado (X). Tiene sentido calcular la correlación entre estas variables, pero llevándolo un paso más allá, realicemos un análisis de regresión y obtengamos una ecuación predictiva.

        La relación entre X e Y se resume en la línea de regresión ajustada en el gráfico con la ecuación: tasa de mortalidad = 389,2 – 5,98*latitud. Sobre la base de la pendiente de -5,98, cada aumento de 1 grado en latitud disminuye las muertes por cáncer de piel en aproximadamente 6 por cada 10 millones de personas.

        Dado que el análisis de regresión produce una ecuación, a diferencia de la correlación, puede utilizarse para la predicción. Por ejemplo, se esperaría que una ciudad en latitud 40 tuviera 389,2 – 5,98*40 = 150 muertes por cada 10 millones debido al cáncer de piel cada año.La regresión también permite la interpretación de los coeficientes del modelo:

        • Pendiente: cada aumento de un grado en latitud disminuye la mortalidad en 5,98 muertes por cada 10 millones.
        • Intercepción: a 0 grados de latitud (Ecuador), el modelo predice 389,2 muertes por cada 10 millones. Aunque, como no hay datos en el intercepto, esta predicción depende en gran medida de que la relación mantenga su forma lineal a 0,
        • Mejora tu regresión lineal con Prism. Comience su prueba gratuita hoy.

          Resumen e información adicional

          En resumen, la correlación y la regresión tienen muchas similitudes y algunas diferencias importantes. La regresión se utiliza principalmente para construir modelos/ecuaciones para predecir una respuesta clave, Y, a partir de un conjunto de variables predictoras (X). La correlación se utiliza principalmente para resumir de forma rápida y concisa la dirección y la fuerza de las relaciones entre un conjunto de 2 o más variables numéricas.

          La siguiente tabla resume las principales similitudes y diferencias entre la correlación y la regresión.

          .

          Tema

          Correlación

          Regresión

          Cuándo usar

          Para un resumen rápido y sencillo de la dirección y fuerza de las relaciones por pares entre dos o más variables numéricas.

          Para predecir, optimizar o explicar una respuesta numérica Y a partir de X, una variable numérica que se cree que influye en Y.

          Cantifica la dirección de la relación

          Cantifica la fuerza de relación

          X e Y intercambiables

          No

          Y aleatorio

          Y al azar

          X al azar

          No

          Predicción y optimización

          No

          Ecuación

          No

          Extensión a los ajustes curvilíneos

          No

          Causa y efecto

          No

          Intenta establecer

          Aprenda más sobre cómo elegir entre regresión y correlación en Prism Academy

          Prueba tu comprensión de Correlación y Regresión

          ¿Qué herramienta, correlación o regresión, utilizarías en cada uno de estos escenarios:

          1. Tienes dos sistemas de medición y quieres ver la concordancia entre ellos. Así que mide las mismas 20 piezas con cada sistema de medición.
          2. Quieres predecir la presión arterial para diferentes dosis de un fármaco.
          3. Un ensayo clínico tiene múltiples puntos finales y quieres saber qué par de puntos finales tiene la relación lineal más fuerte.
          4. Se quiere saber cuánto cambia la respuesta (Y) por cada aumento de una unidad en (X).
          5. Respuestas:

            1. Estas dos variables son respuestas intercambiables, por lo que la correlación sería lo más apropiado.
            2. La regresión es la herramienta adecuada para la predicción.
            3. Una matriz de correlación le permitiría encontrar fácilmente la relación lineal más fuerte entre todos los pares de variables.
            4. La pendiente en un análisis de regresión le dará esta información.

            Inicie su prueba gratuita de Prism hoy

            .