
Estadistica sin libro de texto: media, mediana, desviacion tipica y mucho mas
📷 Lukas / PexelsEstadistica sin libro de texto: media, mediana, desviacion tipica y mucho mas
No necesitas un titulo en estadistica para entender tus datos. Aprende que significan realmente la media, la mediana, la moda, la desviacion tipica, el IQR y el rango, y cuando usar cada uno.
La estadistica tiene un problema de imagen. La mayoria de las personas la encuentran por primera vez en el aula, donde parece abstracta y desconectada de la realidad, y se marchan convencidas de que es cosa de investigadores y matematicos. Luego pasan toda su carrera trabajando con datos — cifras de ventas, calificaciones, datos de sensores, resultados de pruebas A/B — e improvisan como pueden.
La verdad es que las ideas fundamentales de la estadistica son simples, practicas y estan al alcance de cualquier persona. No se necesita un titulo para entender lo que dicen los numeros. Solo hay que saber que significa cada medida y cuando usarla.
Esta guia recorre las estadisticas descriptivas mas frecuentes — media, mediana, moda, desviacion tipica, varianza, IQR y rango — con enfasis en la intuicion y la aplicacion practica, no en las formulas.
Por que existen las estadisticas descriptivas
Con un conjunto de datos que tiene cientos o miles de valores, no se pueden sacar conclusiones mirando los datos brutos. Se necesitan resumenes — numeros que comprimem el conjunto de datos en algo significativo. Las estadisticas descriptivas ofrecen dos cosas: una idea de donde se concentran los valores (tendencia central) y de cuanto se dispersan (variabilidad). Estas dos dimensiones juntas dicen la mayor parte de lo que se necesita para entender un conjunto de datos de un vistazo.
La media: el promedio que todos conocen (y mal usan)
La media — lo que la mayoria llama promedio — se calcula sumando todos los valores y dividiendo entre su cantidad. Es la medida estadistica mas conocida y, por eso mismo, la mas frecuentemente mal utilizada.
El problema con la media es su sensibilidad a los valores atipicos. Un valor extremo puede alejar la media del area donde se concentra la mayoria de los datos. El ejemplo clasico es el de los ingresos.
Imagina una empresa pequena con diez empleados. Nueve de ellos ganan entre 30.000 y 50.000 euros al ano. El decimo es el fundador, que se paga 1.500.000 euros. El salario medio es de unos 180.000 euros — una cifra que no representa con precision a ninguno de los empleados reales. Nadie en esa empresa gana nada cercano a la media.
Esto no es un fallo de las matematicas. La media hace exactamente lo que se supone que debe hacer. El problema es que la media no es la medida adecuada para este conjunto de datos. Las distribuciones salariales estan muy sesgadas por los altos ingresos, y la media se ve arrastrada hacia la cola.
Cuando usar la media: Los datos son aproximadamente simetricos, sin valores extremos. Calificaciones de examen en una clase grande. Peso de articulos en un lote de fabricacion. Tiempos de respuesta del servidor (despues de eliminar picos). Lecturas de temperatura durante un mes.
La mediana: el valor central que ignora los valores atipicos
La mediana se obtiene ordenando todos los valores de menor a mayor y tomando el del medio (o el promedio de los dos del medio si hay un numero par). No se ve afectada en absoluto por los valores atipicos — esos valores extremos estan en los extremos de la lista ordenada y simplemente no entran en el calculo.
Volviendo al ejemplo salarial: ordenando los diez salarios, la mediana cae entre el quinto y el sexto valor, ambos en el rango de 35.000 a 45.000 euros. La mediana es de unos 40.000 euros — una cifra que representa lo que ganan realmente los empleados ordinarios de esa empresa.
Por eso la informacion economica sobre ingresos casi siempre cita la mediana del ingreso de los hogares, no la media. La media estaria sesgada al alza y ocultaria la realidad que vive la mayoria de los hogares.
Cuando usar la mediana: Los datos son asimetricos, hay valores atipicos que no se pueden o no se quieren eliminar, o se trabaja con datos de clasificacion. Precios de inmuebles (unas pocas propiedades de lujo distorsionan la media). Ingresos. Tiempo para completar una tarea (unos pocos usuarios muy lentos distorsionan la media). Cualquier situacion en que se quiera saber cual es la experiencia tipica.
Media vs. mediana: una heuristica rapida
Si la media y la mediana estan cerca, los datos son aproximadamente simetricos y se puede usar cualquiera. Si divergen significativamente, los datos son asimetricos. Una media mucho mayor que la mediana indica un sesgo positivo (unos pocos valores muy grandes tiran de la media hacia arriba). La situacion inversa indica un sesgo negativo. La direccion del sesgo indica donde estan los valores atipicos.
La moda: el valor mas frecuente
La moda es el valor que aparece con mas frecuencia en un conjunto de datos. Es la unica medida de tendencia central que funciona con datos categoricos — colores, marcas, respuestas a encuestas — para los que la media y la mediana no tienen sentido.
Si pides a los usuarios que elijan su funcion favorita de una lista de cinco opciones, la "funcion C" no puede tener una media. Pero si puede tener una moda: la opcion elegida con mas frecuencia es la moda.
La moda tambien es util en ciertos contextos numericos. Si analizas ventas de calzado y la talla 42 aparece con mucha mas frecuencia que cualquier otra, conocer la moda te ayuda a gestionar el inventario correctamente.
Desviacion tipica y varianza: medir la dispersion
Conocer el centro de los datos es solo la mitad de la historia. Dos conjuntos de datos pueden tener la misma media y ser completamente distintos en caracter:
Conjunto de datos A: 48, 49, 50, 51, 52 — Media: 50 Conjunto de datos B: 10, 25, 50, 75, 90 — Media: 50
Ambos tienen una media de 50, pero el conjunto B tiene mucha mas variabilidad. La desviacion tipica cuantifica esa variabilidad. Dice, de forma aproximada, cuanto se aleja un valor tipico de la media.
El conjunto A tiene una desviacion tipica de aproximadamente 1,6. El conjunto B tiene una desviacion tipica de aproximadamente 30,4. Esa diferencia captura exactamente lo que se ve en los datos brutos: el conjunto A se agrupa estrechamente en torno a 50, mientras que el B esta ampliamente disperso.
La varianza es simplemente el cuadrado de la desviacion tipica. Aparece en la teoria estadistica y en las formulas, pero la desviacion tipica es generalmente mas interpretable porque esta en las mismas unidades que los datos. Si mides altura en centimetros, la desviacion tipica tambien es en centimetros. La varianza estaria en centimetros cuadrados, mas dificil de interpretar.
Poblacion vs. muestra: por que importa n-1
Esta es la fuente de confusion mas comun en estadistica basica, y es importante.
La desviacion tipica poblacional se usa cuando el conjunto de datos contiene a todos los miembros del grupo que se estudia. Se divide entre n. Si tienes las notas de todos los alumnos que hicieron un examen, usa la desviacion tipica poblacional.
La desviacion tipica muestral se usa cuando el conjunto de datos es una muestra extraida de una poblacion mayor y se quiere estimar la variabilidad de esa poblacion. Se divide entre n-1 en lugar de n.
Por que n-1? Porque las muestras tienden a subestimar, por azar, la variabilidad de la poblacion. Cuanto menor es la muestra, mayor es esta subestimacion. Dividir entre n-1 en lugar de n corrige este sesgo. Esta correccion se llama correccion de Bessel.
En la practica: si analizas respuestas de 200 clientes de una base de 50.000, usa la desviacion tipica muestral. Si tienes datos de todos los 200 empleados de tu empresa, usa la desviacion tipica poblacional.
En Excel, STDEV() usa n-1 y STDEVP() usa n. En Python, statistics.stdev() usa n-1 y statistics.pstdev() usa n. Equivocarse aqui lleva a subestimar sistematicamente la variabilidad, lo que puede afectar decisiones reales.
IQR y cuartiles: dispersion robusta sin distorsion por valores atipicos
La desviacion tipica es sensible a los valores atipicos. El rango intercuartilico (IQR) es una alternativa mas robusta que ignora completamente los valores extremos.
Para calcular el IQR:
- Ordenar los datos
- Encontrar Q1 (percentil 25 — mediana de la mitad inferior)
- Encontrar Q3 (percentil 75 — mediana de la mitad superior)
- IQR = Q3 - Q1
El IQR indica la dispersion del 50% central de los datos. Como solo mira los valores entre Q1 y Q3, los valores atipicos en los extremos simplemente no tienen efecto.
El IQR tambien es el metodo estandar para definir valores atipicos en los diagramas de caja. Los valores por debajo de Q1 - 1,5 * IQR o por encima de Q3 + 1,5 * IQR se marcan como atipicos. No es una regla perfecta — a veces los valores extremos son datos legitimos que no deben descartarse — pero proporciona un punto de partida automatico y razonado para la deteccion de valores atipicos.
El rango: simple pero limitado
El rango es la medida de dispersion mas sencilla: maximo menos minimo. Indica la amplitud total de los datos en un solo numero.
La limitacion es obvia. El rango esta completamente determinado por los dos valores mas extremos. Un error de entrada de datos — un 52 que se convierte en 520 — puede inflar el rango de forma dramatica y hacerlo completamente enganoso. El rango no da informacion sobre donde se concentra la mayoria de los valores.
Dicho esto, el rango tiene sus usos. Para obtener rapidamente una idea aproximada de la magnitud de los datos, el rango responde de inmediato. Usalo siempre en combinacion con la desviacion tipica o el IQR para obtener una imagen mas completa.
Casos de uso practicos
Pruebas A/B
Al ejecutar una prueba A/B, se recoge una metrica para ambas variantes. Antes de ejecutar pruebas de significacion, examina las estadisticas descriptivas de cada grupo: media, mediana y desviacion tipica. Si las distribuciones tienen formas muy diferentes, eso afecta que pruebas estadisticas son apropiadas. La desviacion tipica indica cuanto ruido hay, lo que determina directamente el tamano de muestra necesario para detectar una diferencia significativa.
Distribuciones de calificaciones
Una media de clase del 72% parece informativa. Una desviacion tipica de 4 significa que casi todos estuvieron entre el 68% y el 76% — la clase tuvo un rendimiento consistente. Una desviacion tipica de 18 significa una dispersion enorme. Misma media, situacion pedagogica completamente diferente. Sin la desviacion tipica, te pierdes la mitad de la historia.
Datos de sensores e IoT
Los sensores industriales generan flujos de lecturas de temperatura, presion y vibracion. Calcular la media y el IQR en una ventana deslizante te muestra como es la normalidad. Cuando una lectura se aleja mas de 2-3 desviaciones tipicas de la media, o supera los limites de valores atipicos basados en el IQR, es una senal de que algo puede estar fallando. Esta es la base de muchos sistemas de deteccion de anomalias.
Metricas de negocio
Los ingresos mensuales tienen una media y una desviacion tipica. Si los ingresos de este mes se situan 2,5 desviaciones tipicas por encima de la media, merece la pena investigar — podria ser una mejora real o un pico puntual. Rastrear las metricas en relacion con su distribucion historica hace visibles tendencias y anomalias que los datos brutos ocultarian.
Errores comunes
Usar la media con datos asimetricos. Es el error mas frecuente. Cuando se comunica un valor tipico para datos que pueden ser asimetricos — ingresos, precios, tiempos, recuentos — comprueba siempre la mediana. Si la media y la mediana difieren significativamente, da prioridad a la mediana.
Usar la desviacion tipica poblacional en una muestra. Si trabajas con una muestra, usa n-1. La mayoria de las herramientas de calculo lo usan por defecto, pero compruebalo.
Tratar la deteccion de atipicos por IQR como definitiva. La regla 1,5 * IQR es una heuristica util, no una ley. Un valor extremo marcado puede ser perfectamente legitimo. Examina siempre los valores marcados antes de eliminarlos.
Ignorar la forma de la distribucion. Las estadisticas descriptivas resumen, pero los resumenes pierden informacion. Cuando sea importante, mira un histograma o un diagrama de caja, no solo los numeros de resumen.
Conclusion
El buen analisis de datos comienza con las estadisticas descriptivas, no termina en ellas. Antes de construir modelos, ejecutar pruebas o tomar decisiones, dedica unos minutos a tus datos: calcula y compara la media y la mediana, examina la desviacion tipica para entender la variabilidad, usa el IQR para detectar valores atipicos y comprueba el rango para detectar problemas evidentes de calidad de datos.
Estos numeros te diran si tus datos estan limpios, si son asimetricos, si la media es un resumen razonable y donde estan las caracteristicas interesantes. Son los cimientos sobre los que se construye todo lo demas.
Nuestra calculadora estadistica lo gestiona todo al instante — pega tus datos y obtendras con un solo clic la media, la mediana, la moda, la desviacion tipica (tanto poblacional como muestral), la varianza, el IQR, los cuartiles y el rango. Sin formulas de hoja de calculo que recordar, sin ordenacion manual necesaria. Usala como punto de partida cada vez que te encuentres con un nuevo conjunto de datos.
La estadistica no consiste en dominar formulas. Consiste en hacerle las preguntas correctas a los datos. Estas herramientas te ayudan a hacerlas mas rapidamente.