Contraste de Hipótesis 1 – ¿cómo no aceptar lo falso?

El contraste de hipótesis es una de las técnicas estadísticas más conocidas para juzgar si una determinada propiedad de una población es compatible con lo que podemos observar obteniendo una muestra de esta población.

Un poco de estadística básica

Vayamos poco a poco. Para comprender la base de la técnica del contraste de hipótesis, necesitamos repasar apenas unos cuantos términos sencillos de estadística.

  • Población estadística: es el conjunto completo que vamos a estudiar. Por ejemplo, todos los hombres de España; o todos los mamíferos del mundo; o todos los estudiantes menores de 18 años.
  • Muestra: es un subconjunto de la población. Una muestra de la población «todos los hombres de España» sería un conjunto determinado de los hombre de España, por ejemplo, 100 hombres, o 1000 hombres. Por supuesto, estas muestras se eligen de una determinada forma para que sea lo suficientemente «buena» (representativa) para toda la población.
  • Media: supongamos ahora que queremos estudiar una propiedad sobre la población «todos los hombres de España», por ejemplo, la edad. Si cogemos una muestra de 100 hombres, la media muestral es la suma de las edades de los 100 hombres, dividida entre 100 (o el número de hombres en la muestra). Por lo tanto, la media de la población (denotada por μ) es la suma de las edades de todos los hombres de España, dividido entre el número de hombres en España. Esto es muy difícil de calcular, el simple hecho de preguntar a toda una población sobre una o más propiedades de ella es prácticamente imposible. Por ello, existen técnicas para estimar la media de la población
  • Desviación estándar: al igual que la media, tenemos la desviación estándar poblacional (denotada por σ) y la muestral. Mide la variación de los datos respecto a la media. Una desviación estándar baja significa que los datos están agrupados cerca de la media, mientras que una desviación estándar alta indica que los datos se extienden sobre un rango de valores más amplio.
  • Distribución normal: esta distribución permite modelar numerosos fenómenos naturales y sociales. Tiene forma de campana y usándola podemos calcular la probabilidad de un suceso ocurra dentro de un determinado rango de valores. La distribución normal se da en términos de dos parámetros: uno de ellos e la media y el otro puede ser la varianza o la desviación estándar. La varianza es el cuadrado de la desviación estándar.

La siguiente figura muestra el gráfico de la función de densidad de una distribución normal de media μ=170 y desviación estándar σ=12, hecha con el programa R.

normal2

En todo caso, indicaremos cuándo la distribución está dada por la desviación estándar, N(μ,σ), o por la varianza, N(μ,σ²).

En estos Apuntes de Estadística podéis encontrar un recurso muy bueno para repasar desde cero los conceptos básicos pero muy importantes sobre inferencia estadística.

¿Qué es un contraste de hipótesis?

Introducción

Seguro que alguna vez te has levantado a trabajar y has sentido un fuerte dolor de cabeza, dolor en la garganta y malestar en general. Sospechas que puedes tener fiebre. Tienes que comprobarlo. Para ello usarás un termómetro, y no tendrás fiebre si la temperatura que marca es menor o igual a 37 grados. Por lo tanto, si marca más de 37 grados, tendrás fiebre. Esto es un contraste de hipótesis. Basándonos en ciertos hechos, formulamos una hipótesis inicial y, dependiendo de cierto test, la rechazamos o no (quédate con esta última frase).

Las matemáticas del contraste de hipótesis

Existen dos tipos de contraste de hipótesis: contrastes paramétricos y contrastes no paramétricos. Los primeros son aquellos en los que la hipótesis concierne a parámetros poblacionales, como la media o la varianza. Los segundos son los que afectan a cualidades de la propia distribución, como la homogeneidad o la independencia. Nos centraremos en este post en los contrastes paramétricos.

Ya en términos estadísticos, los hechos en los que nos basaremos serán ciertas muestras que extraeremos de una población, la hipótesis que planteamos será la hipótesis nula (generalmente denotada por H0) , y la hipótesis contraria, la hipótesis alternativa (generalmente denotada por H1). La hipótesis nula es la que suponemos que es cierta. La hipótesis alternativa sustituye a la hipótesis nula cuando ésta es rechazada.

En nuestro ejemplo anterior, asumiendo como cierto que no tenemos fiebre, tendríamos que:

H0: temperatura \leq 37 grados \\
H1: temperatura > 37 grados

Ahora, haciendo un determinado test, rechazaremos o no la hipótesis nula. Como ves, es la segunda vez que repito esta última frase; y es que es muy importante, ya que lo que hacemos con la hipótesis nula es algo parecido a lo que se hace en un juicio, donde la hipótesis nula sería «el acusado es no culpable». Si tenemos suficientes pruebas, descartamos la hipótesis nula y nos quedamos con la alternativa, es decir, declaramos al acusado culpable. Pero si no tenemos suficientes pruebas, no podemos descartar la hipótesis nula, es decir, no podemos declarar al acusado culpable. Pero eso no significa que la hipótesis nula sea correcta (que el acusado sea inocente), simplemente que no la podemos descartar.

Tipos de errores

Por supuesto, este método nos asegura que si rechazamos la hipótesis nula H0, la probabilidad de que efectivamente H0 sea errónea es muy alta.  Por lo tanto, tiene sentido fijar un número que nos indique la probabilidad de que, siendo H0 verdadera, sea rechazada, es decir, cometer un error de tipo I. A este número le llamaremos nivel de significación, y lo denotaremos por α.

Es decir, fijando nuestra hipótesis nula como lo que creemos cierto, lo que nos interesa es que H0 sea cierta, minimizando cometer un error de tipo I y rechazarla, por lo que generalmente escogeremos un α muy pequeño. En esta tabla resumimos los tipos de errores que podemos cometer.

Tipo de erroresH0 VerdaderaH0 Falsa
Aceptar H0No errorError tipo II
Rechazar H0Error tipo INo error

Describamos los pasos necesarios para hacer un contraste de hipótesis desde el principio hasta el final.

  1. Identificar el parámetro que vamos a estudiar, puede ser la media, la desviación típica, la proporción, etc., de una cierta población.
  2. Formular la hipótesis nula y la hipótesis alternativa.
  3. Fijar un valor para el nivel de significación α.
  4. Elegir una muestra de tamaño n de nuestra población y obtener el valor del estadístico para esta muestra en concreto.
  5. Determinar la región de aceptación y la región de rechazo.
  6. Decidir si rechazamos o no la hipótesis nula.
  7. Interpretar los resultados obtenidos.

Algunos de estos conceptos, como «el valor del estadístico» o «la región de aceptación y rechazo», no los hemos detallado todavía, pero los veremos pronto.

Una vez realizados los pasos del 1 al 5 , y asumiendo que la población sigue una distribución normal, esta es la pinta que tendrán los gráficos obtenidos, dependiendo de la condición que tengamos en la hipótesis nula.

Regiones de rechazo y aceptación en el contraste de hipótesis

Tipos de contraste de hipótesis

  • Si la hipótesis nula se formula en términos «de igual» y la alternativa «de distinto», tendremos un contraste de hipótesis bilateral.
H0: \mu = {\mu}_0 \\
H1: \mu \neq {\mu}_0
  • Si la hipótesis nula se formula en términos «de mayor o igual» y la alternativa en términos «de menor», tendremos un contraste de hipótesis unilateral izquierdo.
H0: \mu \geq {\mu}_0 \\
H1: \mu < {\mu}_0
  • Si la hipótesis nula se formula en términos «de menor o igual» y la alternativa en términos «de mayor», tendremos un contraste de hipótesis unilateral derecho.
H0: \mu \leq  {\mu}_0 \\
H1: \mu > {\mu}_0

Dependiendo del tipo de contraste, las zonas de rechazo y no rechazo cambiarán.

Ya estamos en condiciones de abordar técnicamente los contrastes de hipótesis. Veamos primero un caso poco probable en la realidad, pero muy ilustrativo para seguir avanzando.

Contraste sobre la media de una distribución normal de desviación estándar conocida.

El título suena complicado, pero no lo es en absoluto. Significa que tenemos una población que sigue una distribución normal de media μ desconocida y desviación estándar σ conocida, N(μ,σ²), y lo que vamos a hacer es un contraste de hipótesis sobre la media. Para ello, veamos un ejemplo bastante ajustado a un ejemplo real.

Supongamos nos contrata un equipo de baloncesto interesado en incorporar nuevos jugadores a la plantilla. Sabemos que la altura del jugador es una característica muy importante en este deporte. La directiva te proporciona un estudio hecho hace 30 años en la ciudad sobre la altura de los jugadores de todos los equipos de la región. En este estudio puedes ver que la media de la altura hace 30 años era μ=170 centímetros, que la varianza (el cuadrado de la desviación estándar) era σ²=500 centímetros y que la población (todos los jugadores de todos los equipos de la región) sigue una distribución normal N(μ,σ²)=N(150,500). Lo primero que queremos averiguar es si la media de la altura de los jugadores sigue siendo la misma después de 30 años, considerando la misma desviación estándar.

Sigamos los pasos establecidos anteriormente para este estudio.

1 Identificar el parámetro que vamos a estudiar

En este caso, el parámetro es la media μ.

2 Formular la hipótesis nula y la hipótesis alternativa

En nuestro estudio, queremos saber si la media de la altura ha cambiado en los últimos 30 años o no, es decir

H0: \mu = 170 \\
H1: \mu \neq 170

3 Fijar un valor para el nivel de significación α

Si rechazamos la hipótesis nula en favor de la alternativa, que el error de equivocarnos sea pequeño, por ejemplo fijamos α=0.1 (10%).

4 Elegir una muestra de tamaño n de nuestra población y obtener el valor del estadístico para esta muestra en concreto

Supongamos que finamos n=10, y tomamos una muestra de este tamaño de la distribución normal con la que estamos trabajando, N(μ,σ²)=N(150,500), obteniendo los siguientes resultados:

176; 174; 152; 141; 192; 189; 190; 194; 191; 174

La media muestral (estadístico) es por tanto el resultado de sumar todos los valores y luego dividir entre 10, es decir,

\bar{x}=177.3

5 Determinar la región de aceptación y la región de rechazo

Este es el paso en el que aún no hemos profundizado y lo haremos ahora. La media muestral obtenida en el paso anterior, proviene de una distribución normal, por lo que ella misma también sigue una distribución normal de la forma

N(μ, \frac{500}{n})

Procedemos entonces a tipificar la media muestral. Esto consiste en transformar la distribución de la media muestral en una distribución normal de media 0 y varianza 1, mediante la siguiente fórmula:

Z= \frac{ \bar{x} - \mu }{ \sqrt{ \frac{ {\sigma}^2 }{n} } }

Ahora, nuestro estadístico Z (llamado estadístico experimental) sigue una distribución normal N(0,1). Con el nivel de significación α=0.1 fijado anteriormente, consultamos la tabla de la distribución N(0,1) para los valores

Z_{1- \frac{ \alpha }{2} }, Z_{\frac{ \alpha }{2} }

que por la simetría de la distribución normal, es lo mismo que hallar en la tabla los valores

-Z_{\frac{ \alpha }{2} }, Z_{\frac{ \alpha }{2} }

Por lo tanto, nuestras regiones de aceptación y de rechazo son

  • Región crítica o de rechazo:
C_r = (- \infty,-Z_{\frac{ \alpha }{2} }) \cup ( Z_{\frac{ \alpha }{2} }, \infty)
  • Región de aceptación:
C_a=(-Z_{\frac{ \alpha }{2} }, Z_{\frac{ \alpha }{2} } )

Consultamos la tabla de la distribución normal para los valores anteriores, y obtenemos que nuestra región de aceptación para α=0.1 es

(-1.64,1.64)

Veamos el valor del estadístico experimental sustituyendo los valores en su fórmula. Tenemos que

Z= \frac{ \bar{x} - \mu }{ \sqrt{ \frac{ {\sigma}^2 }{n} } }=\frac{ \bar{x} - 170}{ \sqrt{ \frac{ 500}{n} } }=1.032

El valor obtenido para el estadístico experimental Z está dentro de la región de aceptación, es decir,

Z=1.032 \in (-1.64,1.64) 

6 Decidir si rechazamos o no la hipótesis nula

Como nuestro estadístico experimental está dentro de la región de aceptación, se concluye que no se puede rechazar la hipótesis nula. Es decir, no tenemos pruebas suficientes para concluir que la media de la altura de los jugadores de baloncesto de los equipos de la región haya cambiado después de pasados 30 años. Además, afirmamos esto con 90% de probabilidad de no equivocarnos.

7 Interpretar los resultados obtenidos

En el paso anterior, nuestro modelo ha decidido que no podemos rechazar la hipótesis nula, pero tenemos que tener en cuenta algunos factores muy importantes a la hora de entregar nuestro informe al cliente.

1.- Hemos asumido que la varianza de la población no ha cambiado. Esto es mucho asumir si no conocemos la media poblacional. Una forma de afinar nuestro análisis es suponer que tampoco conocemos la varianza poblacional. Todo es igual, pero tenemos un problema al tipificar la media muestral

Z= \frac{ \bar{x} - \mu }{ \sqrt{ \frac{ {\sigma}^2 }{n} } }

Simplemente no podemos calcularlo, ya que no conocemos el parámetro σ².  No obstante, podemos estimarla con la cuasivarianza. En este caso, cuando tipificamos, el estadístico experimental obtenido ya no sigue una distribución normal sino una distribución t de Student, pero eso es otra historia que podemos contar en una segunda parte si estáis interesados. Tampoco es muy complicado, simplemente tendremos que consultar las tablas para esta distribución en lugar de consultar las tablas de la distribución normal.

2.- Hemos supuesto también que la población sigue una distribución normal, lo cual habría que verificar utilizando también herramientas estadísticas.

Aplicaciones del Contraste de Hipótesis

El contraste de hipótesis es una herramienta estadística muy potente y es ampliamente utilizada en muchas ramas de la ciencia y de la sociología. Mostramos aquí algunos de los ejemplos más comunes:

Usos en medicina

En concreto, se utiliza ampliamente para ensayos clínicos de nuevos medicamentos. Entre ellos, se utiliza para comprobar si varios tratamientos son igualmente efectivos en términos de una variable cualitativa, es decir, cuando los valores que toma la variable son cualidades o categorías, o nombres. Por ejemplo: la variable sexo (Hombre, Mujer), la variable tener o no una determinada patología, etc.

Usos en ecología

Una de las cuestiones más importantes que se plantean los ecólogos es el análisis de las diferencias entre dos poblaciones. En este caso, plantear como hipótesis nula si hay diferencia entre dos poblaciones concretas carece de sentido, ya que no existen en la naturaleza dos seres vivos idénticos. Por lo tanto, lo que nos interesa en este caso en valorar cómo de grande es la diferencia entre ambas poblaciones.

Usos en sociología

Este es uno de los campos donde también el contraste de hipótesis es bastante utilizado. En política, un sociólogo puede pronosticar que en una región determinada el nivel de abstención será, digamos, de un 30%. Elige una muestra aleatoria de, pongamos, 500 individuos con derecho a votar y ya puede determinar con un nivel de significación de, por ejemplo, un 0.5%, si puede admitir el pronóstico inicial.

Resumen

Sabemos que no todos los problemas a los que se enfrenta un científico o un ingeniero se refieren a estimar únicamente un parámetro de la población, sino que generalmente hay que formular un proceso de decisión que está basado en datos y puede producir una conclusión acerca de algún sistema o población. Esto es justamente lo que hemos hecho en este post, se hace una conjetura sobre el sistema o población que queremos estudiar y el procedimiento del contraste de hipótesis conduce a su aceptación o rechazo, basándonos en hipótesis estadísticas. La potencia de estos modelos es enorme, y es usado para tomar decisiones en asuntos tan sensibles como la medicina.

En siguientes posts, veremos cómo varían las distribuciones y el método dependiendo del conocimiento que tengamos sobre la población y, lo que es muy importante, cómo obtener muestras representativas de estas poblaciones.

Acerca del autor

Este es un post invitado por José David Villanueva García. José David es Ingeniero Técnico en Informática de Sistema por la Universidad Rey Juan Carlos, Graduado en Matemáticas por la UNED, y Máster en Matemáticas Avanzadas por la UNED (Máster Thesis).

Actualmente trabaja como ingeniero en Darmstadt, Alemania, en diferentes proyectos para la ESA (European Space Agency) y EUMETSAT (European Organisation for the Exploitation of Meteorological Satellites).

Deja un comentario