jueves, 31 de mayo de 2012

Seminario 5

  En este seminario también estuvimos trabajando con el programa Epi Info. Analizamos varias variables de unos estudios. En primer lugar vimos qué alimento había ocasionado una enfermedad gastrointestinal en una fiesta de cumpleaños y descubrimos que había sido el helado de vainilla porque era el único en el que la p era menor de 0.05. Miramos la ODDS ratio, el intervalo de confianza y el porcentaje de error.
Trabajamos con el test de chi cuadrado, el de la T de student y con la regresión lineal que la tenemos que ver hoy en clase.
Era curioso que algunas variables se aproximaban mucho al error máximo de 0.05 pero si lo superaba por milésimas esta variable no influía, con lo cual aceptábamos la hipótesis nula.
Seminario 4

  En este seminario estuvimos utilizando aplicaciones del programa Epi Info. Aprendimos a realizar tablas de frecuencia en dicho programa y vimos cómo se hacían los gráficos. Se podían hacer varios tipos de gráficos y personalizarlos con los colores que quisiéramos. Estos gráficos se podían guardar en una carpeta que posteriormente era recuperada para copiar y pegar el gráfico en un documento word.
Estuvimos analizando varias variables de un estudio que empezamos a trabajar en seminarios anteriores que consistía en ver qué alimento había ocasionado una enfermedad gastrointestinal en los asistentes a una fiesta de cumpleaños. Representamos el consumo de algunos alimentos en gráficos.

sábado, 26 de mayo de 2012

Tema 10. Hipótesis estadísticas. Test de hipótesis.

  Los test de hipótesis son herramientas estadísticas que permiten cuantificar la compatibilidad entre una hipótesis previamente establecida y los resultados obtenidos. Me hago la siguiente pregunta: ¿Rechazo o acepto la hipótesis nula? - El test te responde sí o no.
La hipótesis nula es la que establece igualdad entre los grupos a comparar, o dicho de otro modo, la que no establece relación entre las variables de estudio.

  Según el tipo de variables elegimos un tipo de análisis estadístico. Los que vamos a utilizar nosotros son chi-cuadrado y T student. Chi cuadrado es para variables cualitativa tanto dependiente como independiente y T student es para variables dependiente cuantitativa e independiente cualitativa.

  El test de hipótesis mida la probabilidad de error que cometo si rechazo la hipótesis nula.
El error alfa es la probabilidad de equivocarnos al rechazar la hipótesis nula.
El error alfa más pequeño al que podemos rechazar Ho es el error p.
Normalmente rechazamos Ho para un nivel alfa máximo del 5% (p< 0.05).

Tipos de errores en test de hipótesis
Error alfa: se comete rechazando la hipótesis nula siendo esta verdadera.
Error beta: se comete cuando acepto la hipótesis nula y resulta que es falsa.

Test de hipótesis Chi-cuadrado
Suponemos la hipótesis cierta y estudiamos cómo es de probable que siendo iguales dos grupos a comparar se obtengan resultados como los obtenidos o haber encontrado diferencias más grandes por grupos.
Se realiza una tabla de 2x2 con los resultados observados. Posteriormente se realiza otra tabla con los datos esperados.
Se calcula chi-cuadrado mediante una fórmula. El valor resultante tiene correlación inversa con el valor de p.
Sabemos que para una p= 0.05, chi-cuadrado vale 3.84. Si es superior a este valor rechazamos la Ho.

En clase realizamos aproximadamente unos cinco ejercicios relacionados con este test de hipótesis y estudiamos varias maneras de hacer los cálculos.

Test de hipótesis T de student.
Se utiliza cuando la variable independiente es dicotómica y la variable dependiente es continua.
También realizamos varios ejercicios acerca de este test.

Según tengo entendido este es el último tema de la asignatura. He entendido todos los temas. Ahora me queda practicar bien los ejercicios y estudiar detalladamente la teoría. En este parcial entran tres temas pero hay que tener claros los siete temas que vimos en el primer parcial. Tendré que darle un repaso a algunas fórmulas estadísticas.


viernes, 18 de mayo de 2012

Tema 9. Estadística inferencial: muestreo y estimación.

  La inferencia estadística es el conjunto de procedimientos estadísticos que permiten pasar de la muestra a la población.
La población de estudio es el conjunto de pacientes sobre los que queremos estudiar algo.
La muestra es el conjunto de individuos concretos que participan en el estudio.
Siempre que utilizamos muestras hay que asumir un margen de error.
En el muestreo probabilístico o aleatorio se elige por un procedimiento de azar y el error se puede evaluar, se denomina error aleatorio. En los muestreos no probabilístico no es posible evaluar el error.

La medida que queremos obtener se llama parámetro, pero casi nunca la vamos a conocer porque tendríamos que estudiar a la población entera. Lo que podemos obtener es el estimador, que se realiza sobre la muestra.
Al proceso por el que a partir de un estimador, me aproximo al parámetro se denomina inferencia.

 Posteriormente vimos el concepto de error estándar.
 Mide el grado de variabilidad en los valores del estimador en las distintas muestras de un determinado tamaño que pudiésemos tomar de una población. Cuanto mayor sea el tamaño de la muestra, menor será el error estándar. Tenemos una fórmula para calcular el error estándar: para una media y para una proporción.

Intervalos de confianza. Son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar.
En clase realizamos varios ejemplos donde calculamos intervalos de confianza.

TIPOS DE MUESTREO
Probabilístico. Todos los sujetos de la población tienen una probabilidad distinta de cero en la selección de la muestra.
- Aleatorio simple. Cada unidad tiene la probabilidad equitativa de ser incluida en la muestra. No puede usarse cuando el universo es grande.
- Aleatorio sistemático. Cada unidad del universo tiene la misma probabilidad de ser seleccionada. Se elije un número aleatorio y a este se le va sumando el cociente entre el número de sujetos de la población y el de la muestra.
- Estratificado. Se caracteriza por la subdivisión de la población en subgrupos o estratos, debido a que las variables principales presentan cierta variabilidad.
- Conglomerado. En la selección de la muestra se toman los subgrupos o conjuntos de unidades conglomerados. El investigador no conoce la distribución de la variable. Es menos fiable que el aleatorio.

No probabilístico
No se sigue el proceso aleatorio. No puede considerarse que la muestra sea representativa de una población. El investigador decide, según sus objetivos, los elementos que integrarán la muestra: por conveniencia o intencional.
Hay dos subtipos:
Por cuotas. El investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar.
Accidental. Consiste en utilizar para el estudio las personas disponibles en un momento dado, según lo que interesa estudiar.

Se puede calcular, mediante una fórmula, el tamaño de una muestra para estimar la media de una población.
También se puede calcular, mediante otra fórmula, el tamaño de una muestra cuando queremos estimar una proporción.
Realizamos varios ejercicios para practicar esto. Me ha parecido un tema interesante, las últimas fórmulas no recuerdo haberlas estudiado el año pasado en estadística y las he visto bastante útiles.

sábado, 12 de mayo de 2012

Tema 8.  Medidas de tendencia central, posición y dispersión.

  En este tema vimos, en primer lugar, dos grandes tipos de medidas estadísticas:
- Medidas de posición o tendencia central: dan idea de la magnitud de los datos.
- Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de las observaciones.

Medidas de tendencia central
- Media. Es la suma de todos los valores de la variable entre el total de observaciones. Cuando los datos son agrupados, utilizamos como valor de referencia la marca de clase de cada intervalo.


- Mediana. Es el valor de la observación tal que un 50% de los datos es menor y otro 50% es mayor.
Si el valor de las observaciones es impar el valor de la mediana será la observación que ocupa la posición n+1/2.
Si el número de observaciones es par, el valor de la mediana es la media entre la observación n/2 y la observación n+1/2.
Tiene mejor comportamiento que la media cuando hay observaciones extremas.


- Moda. Es el valor que más se repite. Si los datos están agrupados se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor.

Después de ver esto hicimos un ejercicio práctico para aplicar estos conceptos.

MEDIDAS DE POSICIÓN
Cuantiles. Se calculan para variables cuantitativas y solo tienen en cuenta la posición de los valores de la muestra. Los cuantiles más utilizados son percentiles, deciles y cuartiles, según dividan la muestra ordenada en 100, 10 o 4 partes, respectivamente.

Percentiles. Para buscar la posición de un percentil es una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil. El valor del P50 corresponde al valor de la mediana.


Deciles. El valor de D5 corresponde al valor de la mediana y, por tanto, al del P50.


Cuartiles. El Q2 conincide con el valor de D5, con el valor de la mediana y del P50.
Por ejemplo el Q1 indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.

MEDIDAS DE DISPERSIÓN
Rango o recorrido. Diferencia entre el mayor y el menor valor de la muestra.
Desviación media. Media aritmética de las distancias de cada observación con respecto a la media de la muestra.
Desviación típica. Cuantifica el error que cometemos si representamos una muestra únicamente por su media.
Varianza. Expresa la misma información que la desviación típica en valores cuadráticos.
Coeficiente de variación. Es una medida de dispersión relativa (adimensional). Nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medida.

A continuación realizamos un ejercicio donde se pedía calcular las medidas estadísticas estudiadas anteriormente. Era un ejercicio fácil de entender aunque había que fijarse bien en los cálculos para no cometer errores. 

 Después vimos las distribuciones normales. Estas son las que con más frecuencia aparece en fenómenos reales y siguen unos principios básicos. Analizamos la campana de Gauss.
Posteriormente estudiamos las asimetrías y curtosis. 
El coeficiente de asimetría de una variable es el grado de asimetría de la distribución de sus datos en torno a su media. 
El coeficiente de apuntamiento o curtosis de una variable sirve para medir el grado de concentración de los valores que toma en torno a su media. Se elige como referencia una variable con distribución normal, de modo que para ella el coeficiente de curtosis es 0. 
Estudiamos los resultados que se podían obtener y el tipo de distribución en función de éstos.
Asimetrías
g1 = 0  Distribución simétrica
g1 > 0  Distribución asimétrica positiva
g1 <0  Distribución asimétrica negativa

Curtosis
g2 = 0  Distribución mesocúrtica
g2 > 0  Distribución leptocúrtica
g2 < 0  Distribución platicúrtica

  Me ha parecido un tema entretenido y muy práctico, esencial en estadística.