Interesante

Intervalo de confianza para la diferencia de dos proporciones de población

Intervalo de confianza para la diferencia de dos proporciones de población

Los intervalos de confianza son una parte de las estadísticas inferenciales. La idea básica detrás de este tema es estimar el valor de un parámetro de población desconocido mediante el uso de una muestra estadística. No solo podemos estimar el valor de un parámetro, sino que también podemos adaptar nuestros métodos para estimar la diferencia entre dos parámetros relacionados. Por ejemplo, es posible que deseemos encontrar la diferencia en el porcentaje de la población con derecho a voto masculino en los EE. UU. Que apoya una legislación particular en comparación con la población con derecho a voto femenino.

Veremos cómo hacer este tipo de cálculo construyendo un intervalo de confianza para la diferencia de dos proporciones de población. En el proceso examinaremos algunas de las teorías detrás de este cálculo. Veremos algunas similitudes en cómo construimos un intervalo de confianza para una proporción de población única, así como un intervalo de confianza para la diferencia de dos medias de población.

Generalidades

Antes de ver la fórmula específica que usaremos, consideremos el marco general en el que se ajusta este tipo de intervalo de confianza. La forma del tipo de intervalo de confianza que veremos está dada por la siguiente fórmula:

Estimación +/- Margen de error

Muchos intervalos de confianza son de este tipo. Hay dos números que necesitamos calcular. El primero de estos valores es la estimación del parámetro. El segundo valor es el margen de error. Este margen de error explica el hecho de que tenemos una estimación. El intervalo de confianza nos proporciona un rango de valores posibles para nuestro parámetro desconocido.

Condiciones

Debemos asegurarnos de que se cumplan todas las condiciones antes de hacer cualquier cálculo. Para encontrar un intervalo de confianza para la diferencia de dos proporciones de población, debemos asegurarnos de que se cumpla lo siguiente:

  • Tenemos dos muestras aleatorias simples de grandes poblaciones. Aquí "grande" significa que la población es al menos 20 veces mayor que el tamaño de la muestra. Los tamaños de muestra se denotarán por norte1 y norte2.
  • Nuestros individuos han sido elegidos independientemente uno del otro.
  • Hay al menos diez éxitos y diez fracasos en cada una de nuestras muestras.

Si el último elemento de la lista no está satisfecho, entonces puede haber una forma de evitarlo. Podemos modificar la construcción del intervalo de confianza más cuatro y obtener resultados sólidos. A medida que avanzamos, asumimos que se han cumplido todas las condiciones anteriores.

Muestras y proporciones de población

Ahora estamos listos para construir nuestro intervalo de confianza. Comenzamos con la estimación de la diferencia entre las proporciones de nuestra población. Ambas proporciones de población se estiman por una proporción de muestra. Estas proporciones de muestra son estadísticas que se encuentran dividiendo el número de éxitos en cada muestra y luego dividiendo por el tamaño de muestra respectivo.

La primera proporción de la población se denota por pags1. Si el número de éxitos en nuestra muestra de esta población es k1, entonces tenemos una proporción de muestra de k1 / n1.

Denotamos esta estadística por p̂1. Leemos este símbolo como "p1-hat "porque se parece al símbolo p1 con un sombrero en la parte superior.

De manera similar, podemos calcular una proporción de muestra de nuestra segunda población. El parámetro de esta población es pags2. Si el número de éxitos en nuestra muestra de esta población es k2, y nuestra proporción de muestra es p̂2 = k2 / n2.

Estas dos estadísticas se convierten en la primera parte de nuestro intervalo de confianza. La estimación de pags1 es p̂1. La estimación de pags2 es p̂2. Entonces la estimación de la diferencia pags1 - pags2 es p̂1 - pags2.

Distribución muestral de la diferencia de proporciones muestrales

Luego necesitamos obtener la fórmula para el margen de error. Para hacer esto, primero consideraremos la distribución muestral de p̂. Esta es una distribución binomial con probabilidad de éxito. pags1 ynorte1 juicios. La media de esta distribución es la proporción. pags1. La desviación estándar de este tipo de variable aleatoria tiene una varianza de pags(1 - pags)/norte1.

La distribución muestral de p̂2 es similar a la de p̂. Simplemente cambie todos los índices de 1 a 2 y tenemos una distribución binomial con media de p2 y varianza de pags2 (1 - pags2 )/norte2.

Ahora necesitamos algunos resultados de estadísticas matemáticas para determinar la distribución muestral de p̂1 - pags2. La media de esta distribución es pags1 - pags2. Debido al hecho de que las variaciones se suman, vemos que la variación de la distribución de muestreo es pags(1 - pags)/norte1 + pags2 (1 - pags2 )/norte2. La desviación estándar de la distribución es la raíz cuadrada de esta fórmula.

Hay un par de ajustes que debemos hacer. El primero es que la fórmula para la desviación estándar de p̂1 - pags2 utiliza los parámetros desconocidos de pags1 y pags2. Por supuesto, si realmente supiéramos estos valores, entonces no sería un problema estadístico interesante en absoluto. No necesitaríamos estimar la diferencia entre pags1 ypags2…  En cambio, podríamos simplemente calcular la diferencia exacta.

Este problema se puede solucionar calculando un error estándar en lugar de una desviación estándar. Todo lo que necesitamos hacer es reemplazar las proporciones de la población por proporciones de muestra. Los errores estándar se calculan a partir de estadísticas en lugar de parámetros. Un error estándar es útil porque efectivamente estima una desviación estándar. Lo que esto significa para nosotros es que ya no necesitamos saber el valor de los parámetros pags1 y pags2.Como se conocen estas proporciones de muestra, el error estándar viene dado por la raíz cuadrada de la siguiente expresión:

pags1 (1 - p̂1 )/norte1 + p̂2 (1 - p̂2 )/norte2.

El segundo elemento que debemos abordar es la forma particular de nuestra distribución de muestreo. Resulta que podemos usar una distribución normal para aproximar la distribución de muestreo de p̂- pags2. La razón de esto es algo técnica, pero se describe en el siguiente párrafo.

Ambos p̂1 y Ptener una distribución de muestreo que es binomial. Cada una de estas distribuciones binomiales puede aproximarse bastante bien por una distribución normal. Así p̂- pags2 Es una variable aleatoria. Se forma como una combinación lineal de dos variables aleatorias. Cada uno de estos se aproxima por una distribución normal. Por lo tanto, la distribución de muestreo de p̂- pags2 También se distribuye normalmente.

Fórmula de intervalo de confianza

Ahora tenemos todo lo que necesitamos para armar nuestro intervalo de confianza. La estimación es (p̂1 - pags2) y el margen de error es z * pags1 (1 - p̂1 )/norte1 + p̂2 (1 - p̂2 )/norte2.0.5. El valor que ingresamos para z * está dictado por el nivel de confianza DO.Valores comúnmente utilizados para z * son 1.645 para 90% de confianza y 1.96 para 95% de confianza. Estos valores paraz * denotar la porción de la distribución normal estándar donde exactamentedo por ciento de la distribución es entre -z * y z *.

La siguiente fórmula nos da un intervalo de confianza para la diferencia de dos proporciones de población:

(pags1 - pags2) +/- z * pags1 (1 - p̂1 )/norte1 + p̂2 (1 - p̂2 )/norte2.0.5