Diferencias entre las proporciones de 2 poblaciones diferentes

ene´18 Rosana Ferrero 0 comentarios

Hoy vamos a ver cómo determinar si existen diferencias o no entre las proporciones de 2 poblaciones diferentes.Esto nos puede servir, por ejemplo, cuando queremos evaluar el resultado de dar un incentivo al consumidor para que compre nuestro producto, o cuando queremos evaluar los resultados de una encuesta por grupos, o cuando queremos comparar la tasa de empleo entre hombres y mujeres.Sigue leyendo y conocerás todos los trucos para sacarle partido a este tipo de datos.

Contenido

¿Cómo analizar si existen diferencias entre las proporciones de 2 poblaciones diferentes?
Un ejemplo vale más que mil palabras
Hipótesis a evaluar
Consideraciones acerca de los datos
Ejemplos prácticos en R
Interpretación

¿Cómo analizar si existen diferencias entre las proporciones de 2 poblaciones diferentes?

La comparación "a ojo" de las proporciones de 2 poblaciones diferentes (e.g. mujeres/hombres) no nos suele dar resultados concluyentes. Para ello, debemos plantearnos pruebas de hipótesis.

Un ejemplo vale más que mil palabras

Una revista publicó el resultado de una encuesta telefónica a 800 adultos estadounidenses. La pregunta que plantearon los estadounidenses que fueron encuestados fue: "¿Debería elevarse el impuesto federal sobre los cigarrillos para pagar la reforma del sistema de salud?" Los resultados de la encuesta fueron:

De 605 no fumadores, 351 dijeron que "Sí"
De 195 fumadores, 41 dijeron que "Sí"

¿Hay suficiente evidencia (por ejemplo para un nivel de significación del 5%, α = 0.05), para concluir que las dos poblaciones – fumadores y no fumadores – difieren significativamente con respecto a sus opiniones? Si p1 = la proporción de la población no fumadora que responde "sí" y p2 = la proporción de la población fumadora que responde "sí", entonces estamos interesados en probar la hipótesis nula: H0: p1 = p2 (o p1-p2=0, no hay diferencias ente fumadores y no fumadores en la proporción de personas que respondieron "sí")contra la hipótesis alternativa: HA: p1 ≠ p2 (o p1-p2≠0, sí hay diferencias ente fumadores y no fumadores en la proporción de personas que respondieron "sí") Para poder responder a esta pregunta podemos utilizar la prueba Z de diferencia de 2 proporciones para dos muestras independientes. NOTA: Las muestras en este caso son independientes, porque los sujetos solo pueden pertenecer a uno de los grupos (e.g. mujer vs hombre). Si no tienes claro este concepto de muestras independientes ve a nuestra entrada: Guía definitiva para encontrar la prueba estadística que buscas

Hipótesis a evaluar

También podrías plantear otro tipo de hipótesis:

Hipótesis nula

H0: p1=p2

No existen diferencias entre las proporciones de las poblaciones (p1– p2=0).

La proporción de sujetos que respondieron “sí” a la encuesta, fue similar entre fumadores y no fumadores.

Hipótesis alternativa

Podemos seleccionar una de las siguientes hipótesis alternativas:

H1: p1 ≠ p2

La diferencia entre las proporciones de población (p1– p2) no es igual a la diferencia hipotética (d0).

De los sujetos que respondieron “sí” a la encuesta, existen diferencias en la proporción de no fumadores (p1) y la de fumadores (p2).

H1: p1 > p2

La proporción de la población 1 (p1) es mayor que la proporción de la población 2 ( p2).

De los sujetos que respondieron “sí” a la encuesta, la proporción de no fumadores (p1) es mayor que la proporción de fumadores (p2).

H1: p1 < p2

La proporción de la población 1 (p1) es menor que la proporción de la población 2 (p2).

De los sujetos que respondieron “sí” a la encuesta, la proporción de no fumadores (p1) es menor que la proporción de fumadores (p2).

NOTA: Si elegimos la primer opción estaremos ante una prueba bilateral, mientras que la segunda y tercera son pruebas unilaterales (derecha e izquierda, respectivamente).

Consideraciones acerca de los datos

Para que podamos aplicar las pruebas siguientes y los resultados sean válidos, los datos deben cumplir con las siguientes condiciones:

TIPO DE DATOS. Los datos solo pueden presentar dos categorías (datos binarios o dicotómicos), por ejemplo: mujer/hombre, fumador/no fumados, Sí/No, etc.. Para otro tipo de datos utilizaremos otro tipo de pruebas estadísticas (ve a Guía definitiva para encontrar la prueba estadística que buscas).
MUESTRA. Los siguientes puntos se aplican a muchas otras pruebas estadística y es que la muestra sobre la cual trabajamos debe tomarse de manera correcta para poder obtener conclusiones generales sobre la población que queremos analizar.
- La muestra debe tener un tamaño adecuado, es decir, debe ser lo suficientemente grande para poder realizar los análisis con precisión. Para estimar el tamaño de la muestra puedes ir a: Tamaño muestral y potencia estadística.
- Los datos deben ser seleccionados aleatoriamente, para representar a la población que estamos evaluando.
- Las observación deben ser independientes, es decir, los resultados no deben depender de ningún otro resultado previo.

Ejemplos prácticos en R

Si aún no conoces el software estadístico por excelencia, R, ve a nuestra entrada Está Claro, ¡Tienes Que Aprender R Ya!

Comenzaremos por ingresar los datos en R en formato de matriz:

> datos <-

+ matrix(c(351, 41, 254, 154),

+        nrow = 2,

+        dimnames = list(Grupo = c("No fumador", "Fumador"),

+                        Encuesta = c("Sí", "No")))

Observamos los datos de frecuencias absolutas:

> datos

            Encuesta

Grupo         Sí  No

  No fumador 351 254

  Fumador     41 154

Descripción de los datos

Con la función prop.table() consultamos también las frecuencias relativas (proporciones) por fila, para que sea más sencilla la comparación:

> prop.table(datos,margin=1) # margin=1 indica que queremos las proporciones por filas

            Encuesta


Grupo               Sí        No

  No fumador 0.5801653 0.4198347

  Fumador    0.2102564 0.7897436

Es decir, el 58% de los no fumadores ha respondido afirmativamente la encuesta, mientras que este porcentaje disminuye en los fumadores hasta el 21%.

Recuerda: p1 será la proporción de la primera fila y primera columna, y p2 la proporción de la segunda fila y primera columna.

En este caso entonces tenemos que la estimación de p1 y p2 en la muestra es:

p1=0.58
p2=0.21

Pruebas de hipótesis

Para realizar la prueba en R, utilizaremos la función prop.test() que viene instalada en el sistema base de R (no necesitamos instalar ningún paquete previo).La función entiende (nuevamente) que la referencia la da la primera fila y la primera columna.

Prueba bilateral

Tenemos las siguientes hipótesis:
H0: p1=p2
H1: p1≠p2

Recuerda que según nuestras estimaciones en la muestra tenemos: p1=0.58 > p2=0.21, veremos si es una diferencia significativa o no.

Por defecto la función prop.test() asume una prueba bilateral (alternative=“two.sided”) así que no tenemos que indicar nada más que los datos.

>  prop.test(datos)




    2-sample test for equality of proportions with continuity

    correction




data:  datos

X-squared = 79.273, df = 1, p-value < 2.2e-16

alternative hypothesis: two.sided

95 percent confidence interval:

0.2971087 0.4427091

sample estimates:

   prop 1    prop 2

0.5801653 0.2102564

Obtenemos p<0.05 por lo cual el resultado es significativo, rechazamos la H0 y nos quedamos con H1: p1!=p2.Podemos afirmar que de los sujetos que respondieron "sí" a la encuesta, existen diferencias en la proporción de no fumadores (p1) y la de fumadores (p2).

Si vemos las proporciones estimadas es fácil interpretar que de los sujetos que respondieron "sí" a la encuesta, la proporción de no fumadores (p1) es mayor que la proporción de fumadores (p2).

Además el resultado de la prueba nos indica el intervalo de confianza para la diferencia de proporciones con un nivel de confianza del 95% y las estimaciones de las proporciones p1 y p2 en ambas poblaciones.

Prueba unilateral (derecha)

Vamos ahora a probar las hipótesis: H0: p1<=p2H1: p1>p2 Recuerda que según nuestras estimaciones en la muestra tenemos: p1=0.58 > p2=0.21. Especificamos la alternativa "greater" para indicar que queremos una prueba unilateral derecha, es decir, con el símbolo de mayor (>) en la hipótesis alternativa.

> prop.test(datos,alternative = “greater")

    2-sample test for equality of proportions with continuity

    correction




data:  datos

X-squared = 79.273, df = 1, p-value < 2.2e-16

alternative hypothesis: greater

95 percent confidence interval:

0.3082679 1.0000000

sample estimates:

   prop 1    prop 2

Obtenemos p<0.05 por lo cual el resultado es significativo, rechazamos la H0 y nos quedamos con H1: p1>p2.

De los sujetos que respondieron "sí" a la encuesta, la proporción de no fumadores (p1) es mayor que la proporción de fumadores (p2); p1=0.58 > p2=0.21.

Interpretación

Según la encuesta realizada, en EEUU (o en el sitio donde se realizara la encuesta) la proporción de no fumadores que están de acuerdo con elevar el impuesto federal sobre los cigarrillos para pagar la reforma del sistema de salud es mayor que en los fumadores (X2(1)=79.273, p<0.0001).

La estimación del intervalo de confianza del 95% de la diferencia entre la proporción de no fumadores y fumadores que responden «Sí» a la encuesta de opinión está entre 29.7% y 44.3%.