Desigualdad: una guía cuantitativa para matemáticos y no matemáticos(PARTE 1 de 2)

Sientifiko
9 min readDec 18, 2023

La desigualdad es hoy por hoy, el tema mainstream a lo largo de todas las ciencias sociales. No es extraño ver encendidos debates académicos y por RRSS, sobre si la desigualdad subió, bajó, se mantuvo, etc. Y es que por sobre la pobreza, los niveles de desigualdad son en la práctica un KPI respecto a la capacidad de la sociedad de enriquecerse y distribuir tal riqueza a lo largo de la población, lo cual no puede hacerse sin un marco institucional y regulatorio que lo posibilite.

Es por ello que una desigualdad que sube o que baja, más allá del número, está comportando una sensible crítica a la forma en que el capitalismo se organiza. Por ejemplo, existe una amplia literatura en torno a como la misma desigualdad, “interactúa” si es que no, genera condiciones institucionales que permiten que esta se consagre, o en última instancia, se autoperpetúe (para quién le interese, les dejo la literatura que usé para mi tesis sobre el tema).

Hasta aquí todo bien, el gran tema es que a medida que uno empieza a indagar, se encuentra con que no hay una sola forma de medir la desigualdad. Que está el Gini, el ratio de Palma, el ratio 10/10, las medidas de entropía, etc. A continuación les daré una breve explicación de las bases para que puedan entender estos y otros conceptos. Particularmente veré los siguientes tópicos:

  • Distribuciones, concentraciones y la curva de Lorenz
  • El índice Gini
  • Percentiles, ratio de Palma, y su economía política
  • Riqueza, ingresos, y la redistribución

En esta primera entrega abordaré los dos primeros temas, y en la siguiente, los dos que faltan, espero les sea útil.

Distribuciones, concentraciones y la curva de Lorenz

Lo primero que se debe entender es que la desigualdad parte con 2 cosas: una unidad de análisis, pudiendo ser esta personas, casas, países, instituciones, etc, y algún recurso asociado a esta unidad, representado en alguna cantidad, por ejemplo dinero, metros cuadrados, stock de materiales, número de amistades, etc.

En general se usan los ingresos personales, o del total del hogar, pero estas técnicas pueden ocuparse para literamente cualquier cosa que cumpla con esas condiciones. Por ejemplo, para este apartado, trabajaremos con los PIB de las regiones de Chile (pueden descargar los datos acá), el cual se ve así.

Es solo un fragmento del dataset

Es decir, tenemos la unidad (la región), y su respectiva variable cuantitativa (su PIB), a la que agregamos la población, para ponderar. Aquí, podemos estudiar como está distribuido el crecimiento económico de Chile, a lo largo de sus regiones. Una forma básica de hacerlo es con columnas, vale decir, ir contando cuántas veces se repite un PIB dado. No obstante, la probabilidad de que una región, tenga exactamente el mismo valor de PIB que otra, con todos sus decimales, es extremádamente baja, por tanto, una mejor alternativa en estos casos es calcular intérvalos, por ejemplo de a millón, o de a 10 millones, etc, y contar cuantos casos caen en cada intérvalo, lo que se conoce como histograma. Con nuestros datos esto se ve así.

PIB medido en miles de millones de pesos encadenados. Los PIBs corresponden al año 2020

En este caso, se definieron 30 intérvalos de a 2.500 miles de millones de pesos. Así podemos ver, que el grueso de las regiones parece tener un PIB entre $0 y $17.500 miles de millones de pesos, y solo hay una que se encuentra entre los $77.500 y los $80.000 miles de millones, correspondiente a la región capital del país, Santiago. Si uno fuera ampliando los intérvalos, obtendría una distribución más y más precisa. No obstante, existe una alternativa menos interpretable, pero visualmente más intuitiva, como es ajustar alguna función que una todas esas columnas, como se muestra en la siguiente figura.

Los PIBs corresponden al año 2020

Existen múltiples maneras de estimar esa curva, pero una de las más comunes, es por medio de densidades de Kernel. De esta forma usando un Kernel de distribución normal, obtenemos una curva como la de la imagen. La interpretación de la distribución sigue siendo la misma, es solo que ahora nuestro eje Y recibe un valor funcional no directamente interpretable, pero que si han tenido cursos de cálculo, podrán intuir que con integrales, obtendrán efectivamente, la proporción aproximada de regiones que están entre ciertos intérvalos. Por último, en tanto función, el método de Kernel es simplemente una aproximación por un modelo, si le cambiamos uno de sus parámetros para que se ajute más a los datos, el parámetro de suavización en este caso, la curva se parecerá más y más, a la distribución real, pero al mismo tiempo, resulta menos informativa visualmente (ver y jugar con el código para más detalles).

Para clarificarlo, despejar toda duda, si la distribución está más cargada hacia la izquierda, significa que los valores más bajos son más frecuentes, si está más a la derecha, que los valores altos son más frecuentes, y al centro, que valores se distribuyen en torno a la media. Aunque pueden existir distribuciones extrañas, como las multimodales o uniformes, aunque rara vez se ven en temas de ingresos (estudiar estadística es hermoso, ahí se las dejo).

Ahora, estos temas pueden parecer un poco fuera de lugar, pero es importante entenderlos, pues, como iremos viendo, TODA la discusión cuantitativa sobre la desigualdad parte de entender esto. Por ejemplo, toda la discusión con respecto a la validez del promedio, el uso de medianas, etc, está directamente relacionado a este componente.

Ok, sigamos.

La perspectiva de la distribución, nos muestra el panorama general, entre qué valores hay más casos, si hay valores extremos, y qué tan extremos son, entre otros detalles de la arquitectura que tiene la desigualdad. No obstante, hay otra forma de aproximarse a esto, que es midiendo la concentración, vale decir, si tomáramos la riqueza de todas las personas, y las pusiéramos en una piscina común, podemos estudiar qué proporción de ese total se lleva cada una. Esta es la intuición detrás de la llamada “curva de Lorenz”.

Partamos por lo básico, si sumamos todos los PIBs regionales, nos da un total de $183.893,5 mil millones. Si como vimos, solo santiago tiene un PIB de unos $77.000, implica que Santiago se lleva en torno a un 40% de la piscina. Otra forma de decir esto es que solo una región, se lleva un 40% de la piscina, y por ejemplo, si agregamos a Antofagasta, la segunda región más rica al 2020 con un PIB de $21.390, se tiene que 2 regiones, capturan un 55% de la psicina, y así. Por último, dado que la muestra tiene 15 regiones, también se puede afirmar que solo el 14% de las regiones, se lleva el 55% de la piscina. Ahora, hagamos este ejercicio para todas las regiones, y tendremos la curva de Lorenz, mostrada en la siguiente figura.

Curva de Lorenz

En el eje X tenemos el porcentaje acumulado de regiones, esto es cada región equivale a un ~7%, por lo que 2 regiones son un ~14%, 3 regiones un 20%, etc. Algo similar ocurre en el eje Y, pero con los PIB, por ejemplo, la región más pobre (Aysén) tiene un $1.068 mil millones de pesos, capturando solo un ~0.6%, la siguiente (Arica y Parinacota) tiene un PIB de $1.465, llevándose un ~0.8%, por lo que entre ambas suman un ~1.38%, y así.

La curva roja va mostrando entonces la tendencia de concentración de la piscina común. Así por ejemplo, se podría decir que un 40% del total regiones, se lleva apenas el 10% de la piscina del país, o más aún, que el 90% de las regiones (unas 13), solo captura la mitad del PIB total, mientras que el 10% restante (2 regiones), se lleva la otra mitad.

Como se ve, la interpretación de esta curva aporta una gran cantidad de información respecto a como se está distribuyendo el recurso cuantitativo que tienen todas las unidades. En este caso, se ve claramante, lo extremadamente concentrada que está la economía regional de Chile; es más, solo con esta gráfica podemos estudiar otros aspectos como evaluar si han habido cambios historicos.

Aunque no logre advertirse mucho visualmente, la distribución de riqueza regional presentó una leve mejora con respecto al 2008. Así por ejemplo, si al 2008 y 2014, el 70% de las regiones, se llevaba un ~24% de la piscina común, para el 2020 esa cifra asciende a un ~27%. Como se menciona, no son grandes variaciones, pero al parecer, hay un tanto más de ¿igualdad?

¿Cómo podría evaluar cuantitativamente ello? Pues simple, si en este grupo la riqueza estuviera perfectamente distribuida implicaría que cada porcentaje de la población se lleva un porcentaje equivalente de la piscina, es decir el 1% de las regiones, tiene el 1% del PIB, el 70% de las regiones, el 70% del PIB, y así. Esto se visualiza como una línea recta y ascendente en nuestra curva de Lorenz.

Es decir, tenemos un escenario ideal de perfecta igualdad (linea negra), versus uno real donde no existe (linea roja). Pero noten que la curva ideal y la real ahora generan un espacio o una distancia entre medio ¿Qué pasa si le metemos un par de cálculo e integrales a esa área? ¡Pues pasa que encontramos el coeficiente de Gini! Que es lo que veremos a continuación.

El índice Gini

Captando lo anterior, el Gini se vuelve extremádamente fácil de entender. Ver la siguiente figura.

Por supuesto la fórmula real es un tanto más compleja que A/(A+B), en la medida que calcular tales respectivas áreas bajo la curva, implica integrar por partes, y cosas así, pero la intuición es básicamente la misma. En la figura, A representa la distancia respecto de la igualdad perfecta, la cual luego es dividida por el Área total bajo la curva, para que tal área quede normalizada entre 0 y 1.

La intuición detrás de esto es bastante simple. Asuman que la curva de Lorenz es idéntica a la curva de igualdad perfecta, pues entonces 0/(0+B)=0, cualquier cosa que divida a cero, es cero. Por tanto un Gini igual a cero, es lo mismo que decir que la curva de Lorenz y la curva de igualdad perfecta coinciden.

Por otro lado, si asumimos que una persona concentra el 100% de los recursos, entonces ahora B=0 (que sería como que la curva de Lorenz esté completamente pegada al eje X, salvo en el último % de la población), lo que nos deja con A/(A+0) = A/A=1, por tanto, un Gini igual a uno, es equivalente a decir que una persona concentra todos los recursos de la piscina.

Esto nos muestra que el Gini más que desigualdad de manera general, mide específicamente, el grado de concentración de los recursos, concepto que si bien va de la mano de la desigualdad, no lo captura en su totalidad. Esto implica de que por ejemplo, una curva de Lorenz que tenga distintas formas, puede generar Ginis muy similares. Dado que A y B pueden ser entendidas como áreas, en tanto áreas, pueden ser distribuidas de distintas formas manteniendo las mismas dimensiones: un cuadrado de 4x4 metros, tiene la misma área que un rectángulo de 2x8 (ver siguiente imagen).

Recta X y recta Y son dos formas de Curvas de Lorenz que tienen el mismo Gini. Línea punteada es igualdad perfecta. Fuente.

Vale decir, el Gini, siendo una métrica intuitiva y todo, econde lo primero que partimos viendo, que es la distribución, y la “arquitectura” que tiene la desigualdad, arquitectura que por lo demás, esconde la economía política que tal desigualdad produce. Vean la figura anterior y piensen ¿Qué segmento es el que más está ganando y el que más está perdiendo en cada caso? Por ejemplo ¿Cuanto porcentaje de la riqueza está capturando el 20% de la población en la curva X?

Quedarse con el Gini por si solo, si bien es útil, necesita ser acompañado por otras métricas. La curva de Lorenz es una buena herramienta, pero otra bastante útil, es el análisis de los percentiles, y sus respectivos ratios, lo que veremos en la siguiente entrega.

--

--

Sientifiko

Ingeniero Dialéctico. Puede seguirme en @sientifiko1 por tuiter, o @sientifiko.memero en facebook