TEMA 12: CONCORDANCIA Y CORRELACIÓN Correlación paramétrica: Pearson. Correlación no paramétrica: Spearman.


La concordancia es un concepto utilizado en estadística que se utiliza para:
  • Medir el grado de fiabilidad de los instrumentos de medida.
  • Para cuantificar el grado de acuerdo/desacuerdo entre investigados o investigadores.
Sirve para medir la consistencia en las respuestas.

La correlación mide la relación entre dos variables cuantitativas:

- Si los valores de una variable tienden a ser más altos o más bajos para valores más altos o más bajos de la otra variable. 

Existe correlación entre dos variables si estas varían conjuntamente.

Dos tipos de coeficiente de correlación:
  • Coeficiente de correlación de Pearson: si las variables presentan una distribución normal. (La normalidad: mediante el test de Kolmogorov o Shapiro).
  • Coeficiente de rango Rho de Sperman.

1. ESTUDIO CONJUNTO DE DOS VARIABLES 

A la derecha tenemos una posible manera de recoger los datos obtenidos observando dos variables en varios individuos de una muestra.

- En cada fila tenemos los datos de un individuo 
- Cada columna representa los valores que toma una variable sobre los mismos 
- Los individuos no se muestran en ningún orden particular
Dichas observaciones pueden ser representadas en un diagrama de dispersión (scatterplot). En ellos, cada individuo es un punto cuyas coordenadas son los valores de las variables.
Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.
En el eje X coloco la variable independiente que en este caso es la altura.


En la recta tenemos una correlación positiva y parece que el peso aumenta con la altura. 



2. RELACIÓN DIRECTA E INVERSA:



Relación entre dos variables cuantitativas:
  • Dependencia Funcional: puntos exactamente sobre la línea recta o curva. Pero en estadística no se suele dar este tipo de casos.
  • Dependencia Estocástica: no están todos los puntos exactamente sobre el modelo, sino que existe una tendencia. 
Regresión lineal simple: correlación y determinación

Se trata de estudiar la asociación lineal entre dos variables cuantitativas.
Ejemplo:

Un grupo de investigadores se plantea una investigación para saber si, en un grupo de pacientes de una unidad médica de hospitalización, las cifras de urea plasmática tienen algún tipo de relación con los valores de la hemoglobina. Para ello, se estudiaron ambos parámetros en una muestra de 8 pacientes de esta unidad, obteniéndose los siguientes valores:

Planteamos en primer lugar la hipótesis de estudio en sus tres vertientes H0, H1 y H2: 

• H0: Los valores de hemoglobina en sangre son independientes de los valores de urea plasmática. 
• H1: Los valores de hemoglobina en sangre guardan una relación lineal positiva con los valores de la urea plasmática. 
• H2: Los valores de hemoglobina en sangre guardan una relación lineal negativa con los valores de la urea plasmática.

Las variables de estudio son, tal y como se ha expresado en el enunciado: 
  • Variable independiente: Valores de la urea plasmática, en mg/dl (variable continua).
  • Variable dependiente: Valores de hemoglobina en sangre, en g/dl (variable continua). 
Al tratarse de dos variables continuas, procede estudiar el modelo de regresión lineal y comprobar si existe relación lineal entre ambas variables continuas, calculando la pendiente β1, el punto de intersección β0, el coeficiente de correlación, el coeficiente de determinación y el test de hipótesis correspondiente. Dibujamos, en primer lugar, la nube de puntos que podría definir la correlación existente entre ambas variables:

Nube de dispersión de la Urea y la Hemoglobina


La dispersión que figura aparenta ser de correlación media o baja (ajuste medio-bajo) y de carácter negativo, pero comprobaremos estos efectos con el cálculo de los parámetros del modelo de regresión. La recta de regresión a definir, por tanto, si consideramos las siglas HB=Hemoglobina y U=Urea. HB, sería= β1·U + β0 Calculamos primero β1, para lo que aplicaríamos la siguiente fórmula: 


Utilizando los valores de la tabla, calculamos: β1 = -606,6 / 1160 = - 0,52 

Con este resultado, queda confirmada la sospecha inicial de que la correlación es negativa, ya que este valor nos indica que, por cada mg/dl que incrementa el valor de la urea, la hemoglobina descendería 0,52 g/dl. 

Para calcular β0, despejamos del modelo de la recta HB = β1·U + β0, utilizando las medias y‾ = 24,87 g/dl y x‾ = 27,68 mg/dl como valores de referencia de HB y de U, respectivamente:

β0 = 24,87 - (-0,52 · 27,68) = 39,26 

La recta de regresión quedaría, a la vista de los resultados, de la siguiente forma: 

HB = 39,26 – 0,52· U
 
Si calculamos dos puntos aleatorios en el plano de la recta, podríamos dibujar en la nube de puntos, la recta que mejor define el comportamiento de ésta. Por ejemplo, calculemos el valor de HB para valores de U de 15 mg/dl y de 40 mg/dl. Aplicando la ecuación de la recta obtenida, los valores de HB serían: 
  • Para U= 15 mg/dl; HB = 39,26 - 0,52 · 15 = 31,46 g/dl
  • Para U= 40 mg/dl; HB= 39,26 - 0,52 · 40 = 18,46 g/dl 
Dibujamos en el gráfico anterior la recta que define este modelo de regresión y quedaría de la siguiente forma (ver línea de color verde):
Por último, nos quedaría por calcular los coeficientes de correlación y de determinación, así como el correspondiente test de hipótesis, todo ya muy sencillo una vez calculados β1 y β0. Para calcular el coeficiente de correlación de Pearson y de Spearman, precisamos conocer antes las desviaciones típicas de HB y de U. Recordemos la fórmula:

r= β1 · Sx/Sy

En la tabla anterior habíamos incluido el dato de estas desviaciones Sx y Sy, de forma que calculamos: r = (-0,52) · (12,87 / 12,45) r = - 0,53

Con este dato, podemos decir que, tal y como preveíamos, la correlación es media-baja y de carácter negativo, es decir, inverso. El coeficiente de correlación nos indicaría el porcentaje de explicación del comportamiento de la variable dependiente (la HB) en función del comportamiento de la independiente (la U). En este caso sería: r2= (-0,53)2 = 0,28

Es decir, conociendo los valores de la urea plasmática sólo podemos predecir un 28% del comportamiento de los valores de la Hemoglobina, lo cual indica que es más débil la determinación incluso de lo que pensábamos. 

Para confirmar si debemos aceptar o rechazar la hipótesis nula, culminamos el ejercicio calculando el test de hipótesis t para modelos de regresión lineal simple. Se calculaba de la siguiente forma:

 

Sólo nos falta sustituir y hallaremos lo siguiente: t = 0,52 / [12,45 / (12,87 · √ 8-1)] = 1,42

Este valor de t se compara con el valor que debería adquirir t para una p=0,05 en el supuesto de muestras de 14 grados de libertad. En esta muestra éstos serían los grados de libertad, ya que corresponderían, como en todas las muestras para variables cuantitativas continuas con dos grupos de comparación a la siguiente fórmula: g.l. = n1 – n2 – 2 = 8 + 8 -2 =14. Observamos que el valor esperado sería de 1,76 por lo que esto nos indica que la probabilidad de error al rechazar la hipótesis nula sería superior al 5%. 

La decisión a tomar respecto a este modelo lineal es la de aceptar H0 y, por tanto, esa débil determinación efectivamente se confirma y podemos decir, a la vista de los resultados que:

 “Los valores de hemoglobina en sangre son independientes de los valores de urea plasmática”

Comentarios

Entradas populares de este blog

TEMA 3: DE LOS CONCEPTOS A LAS VARIABLES: Población, muestra, parámetros y estadísticos. Variables y escalas de medida.

TEMA 10: ESTIMACIÓN Y/O SIGNIFICACIÓN ESTADÍSTICA Distribuciones muestrales para medias y datos continuos. Distribuciones muestrales para proporciones y datos categóricos.

TEMA 6: REPRESENTACIÓN GRÁFICA DE LA INFORMACIÓN: Representación variables cualitativas y cuantitativas discretas. Representación de variables cuantitativas continuas. Errores en las representaciones.