ESTADÍSTICA DESCRIPTIVA

La Estadística descriptiva es la parte de la Estadística que se ocupa de la recogida y tratamiento de datos sobre una o varias características de un conjunto de individuos, organizándolos en tablas y gráficos y calculando parámetros que resuman la información para obtener conclusiones.

Población y muestra
Se llama población al conjunto de todos los elementos o individuos que son objeto de un estudio estadístico. Cuando se pregunta a toda la población se realiza un censo.
Se llama muestra al conjunto de individuos de la población que se seleccionan para hacer el estudio estadístico. Cuando se pregunta a la muestra se realiza una encuesta.

Las muestras se usan cuando tomar la información de toda la población resulta difícil, caro o lento, aunque sólo sirven si las conclusiones que sacamos son fiables. Por eso es muy importante saber elegir bien la muestra (técnicas de muestreo) para que el tamaño de la muestra sea proporcionado con el de la población e indicar el grado de fiabilidad de los resultados obtenidos (nivel de confianza y límite máximo de error).

Carácter o variable estadística
Se llama variable o carácter estadístico a la propiedad de la población que es objeto de un estudio estadístico. Cada uno de los valores que puede tomar la variable se llama modalidad y se representa por xi.
Las variables estadísticas pueden ser de tres tipos:

Tablas estadísticas
Una vez efectuado el censo o la encuesta, los datos obtenidos se organizan en una tabla que consta de las siguientes columnas:

Gráficos estadísticos
Hay distintos tipos de gráficos dependiendo del tipo de variable y de la información que queramos dar. Las más importantes son:

Medidas de centralización
Las medidas de centralización son parámetros que se calculan a partir de los datos y que resumen toda la información. Son, por lo tanto, el centro de la distribución. Los más importantes son:

Una distribución es simétrica cuando las tres medidas de centralización son iguales.

Medidas de dispersión
Las medidas de dispersión son parámetros que indican si el conjunto de datos está o no muy disperso respecto de las medidas de centralización. Son, por lo tanto, un indicativo de si las medidas de centralización son representativas o no del conjunto. Como la medida de centralización más importante es la media, todas las fórmulas están referidas a ella, aunque también se puede hacer respecto de la moda y la mediana. Las más importantes son:

Medidas de posición
Las medidas de posición sirven para saber la proporción de datos de la distribución que hay antes y después de un determinado valor. Las más importantes son:

Para hallar cualquiera de ellos, se hace lo mismo que para la mediana (tanto con datos aislados como agrupados), pero teniendo en cuenta la posición que ocupa cada uno. Por ejemplo, para calcular Q3, hallamos 3N/4 (ya que deja los 3/4 de la distribución a su izquierda) y el resto se hace igual que la mediana. En el caso de datos agrupados, en la fórmula, se sustituye N/2 por 3N/4 y el resto se hace igual.
Y lo mismo para cualquier medida de posición: si queremos D3, lo hacemos con 3N/10 o si queremos P47, usaríamos 47N/100.

Valores atípicos. Diagrama de caja o box-plot
Los valores atípicos son aquellos que distorsionan el cálculo de parámetros porque son muy distintos que el resto de datos o se han obtenido de forma errónea. Cuando una distribución tiene valores atípicos, es muy conveniente eliminarlos y hacer todos los cálculos sin ellos. A veces son fáciles de localizar, bien porque sepamos que el aparato de medida está mal, bien porque se vea a simple vista que hay uno muy distinto, pero otras veces resulta más complicado.
El diagrama de caja o box-plot es una representación gráfica basada en los cuartiles que permite identificar los valores atípicos:

Comentarios