¿Cómo me paso al mundo de los datos? Una guía para estafadxs por las ciencias sociales

Sientifiko
10 min readJul 12, 2023

Esta es una pregunta que me hacen con bastante frecuencia. En general alrededor del mundo se ha ido dando cuenta de las altas tasas de gente arrepentida de estudiar humanidades y ciencias sociales debido a las bajas expectativas laborales, y salarios, con respecto a otras disciplinas.

https://www.washingtonpost.com/business/2022/09/02/college-major-regrets/

Por dar el caso de Chile, hace un tiempo compartía esta figura (que despertó la furia en algunos decanos y jefes de carrera de esas Ues estafadoras de mierda), donde se ve el estado paupérrimo de empleabilidad para 4 carreras icónicas de las ciencias sociales, y la altísima variación por Universidad, lo cual está fuertemente asociado al nivel socioeconómico.

Por ejemplo, en el caso de Ciencia Política, solo las dos Ues de elite, la Universidad del Desarrollo (UDD) y la Pontificia Universidad Católica de Chile (PUC), superan el 70% de empleabilidad recién al 2do año. También se puede ver que fuera de Administración Pública, apenas en 2 Ues se supera el 80% de empleabilidad al segundo año, y en algunos casos, como Sociología en la Universidad de Chile (UCH) incluso cae!

Con todo esto, arrancar de ese bodrio de desempleo y frustración, o reinventarse dado que uno ya fue estafado, es lo más racional del mundo. En esa línea, muchos han visto con buenos ojos el volcarse al mundo de los datos, pero no saben bien como empezar.

La primera pregunta es si sirve Udemy, si sirve Coursera, Youtube, qué libro, que contenidos, bla bla bla. Y la respuesta corta es, TODO sirve, todo.

Pero al mismo tiempo, todo esto puede ser inútil si no se pone en práctica o no se mantiene constancia. En ese sentido más allá de cualquier libro o recurso, solo puedo dar un único y fundamental consejo: BÚSCATE UN PROBLEMA!

Este problema puede tener varias formas: algo con datos que exista en la empresa que estés, un problema de investigación en el contexto de tesis, un trabajo de la U, o un problema personal que tengas con el mundo y que quieras resolver. Da lo mismo, lo importante es buscar el problema, entenderlo, entender tus datos, y luego empezar a buscar que te falta para resolverlo.

Por ejemplo, para mi tesis de magíster quería estudiar si un alto nivel de sindicalización tenía algún efecto en los niveles distributivos de un país, lo que se ve así.

La densidad sindical fue extraída de ILOstat

Partamos de la base que ustedes no tienen idea de como siquiera leer una gráfica como esta, desagreguemos cuantas habilidades están involucradas solo en esta figura.

Partamos por los puntos, en este caso representan la caracterización de un país en determinado año, con base al nivel de sindicalización que tiene, y cuanto redistribuye en la población en algo que se vería más menos así.

Esto es lo que se conoce como una estructura de datos de panel o longitudinales, esto es, tenemos una cosa, persona, país, etc, que presenta varias mediciones dentro del mismo conjunto de datos, distintos de los cortes transversales, o cross-section, donde cada caso vive una sola vez.

Hasta aquí entonces podemos reconocer estructuras de datos, variables, casos u observaciones de estos casos, una herramienta que permita administrar esos datos en un formato tabular, por ejemplo, Excel, y sobre todo, los datos necesarios para describir la relación (en mi caso los saqué de la OCDE e ILOstat).

Luego, nos centramos en la visualización en sí, esta muestra un eje X y un eje Y, donde el eje X es nuestra variable independiente, y el Y la dependiente según mi problema o pregunta original, además los puntos están coloreados por continente. Dado que se quiere ver una asociación, nos encontramos que tenemos 2 variables cuantitativas y una cualitativa (el continente), por lo que podemos usar una nube de puntos, y colorear por la variable cualitativa. Si se tuviera una variable cualitativa y otra cuantitativa solamente, no se podría usar este tipo de gráfica. Es decir, para esta visualización necesitamos entender que hay distintos tipos de datos, que hay distintas formas de encontrar asociaciones según su tipo, y esto condiciona como visualizarlo (además de tener que conocer un software para visualizar, en el caso de la figura fue hecha con ggplot en R).

Por último está la curva que mejor se ajusta a los datos, en este caso se usó una suavización estimada de manera local, esto es, el promedio de Y, condicionado en un intervalo de los N valores más cercanos al valor que esté en el eje X. Esta curva si bien nos permite visualizar una tendencia, es menos útil para estimar o cuantificar el efecto de X sobre Y, lo cual se puede obtener por alguna herramienta de modelamiento que capture por ejemplo, la media condicional de Y|X, Z, tal que pueda identificarse cuanto cambio medio en Y está asociado a un cambio medio en X y alguna covariable como Z. Una forma de identificar eso, es buscar la recta que minimice el error cuadrático medio, lo que nos da la estimación por mínimos cuadrados.

Aquí si bien encontramos una tonelada de estadística, tenemos además toda una epistemología con respecto a la inferencia causal, y la literatura sobre regresiones que tiene aparejada, a lo que se suma el lenguaje o software en el cual se ejecutará el ejercicio de modelamiento.

Ahora, el ejemplo que doy, es un tanto más sofisticado, en la medida que busca parecerse lo más posible a la capacidad de establecer una causa, puede que los problemas que tengan ustedes, requieran solo visualización de datos, y cálculos pequeños de algunas medidas descriptivas, como promedios, o recuentos, y en varias instancias, eso es más que suficiente.

En cualquier caso, esto nos devuelve a la naturaleza del problema, y lo que esta necesita para ser resuelta, desde cuyo análisis se identifican el conjunto de habilidades que se necesitan poner en movimiento, o adquirir.

Por supuesto, si están en cero, difícilmente sabrán que es lo que les falta, no obstante se hace incluso más fácil pedir orientaciones, y los consejos son mejores, cuando se parte desde el problema que se quiere resolver, más que de la pregunta genérica “como lo hago meterme en los datos”?

Por lo demás, el problema los obligará a ir aprendiendo, y aplicando lo que van aprendiendo, siendo esto último, la parte central del aprendizaje!!!! LO QUE NO USEN NO LO VAN A APRENDER, PUNTO. Por más videos de Youtube, cursos en línea o universitarios, libros o manuales que revisen, etc, si no van poniendo en práctica nada de eso, simplemente se les va a olvidar, o no van a entender un carajo que está pasando.

Dicho eso, ante las preguntas sobre nociones generales para partir, dejo el Q&A.

>¿Sirven cursos de Youtube o Coursera, etc? ¿Cuáles? ¿Puedes recomendar uno?

-Si

-Cualquiera solo asegúrate de terminarlo o avanzarlo lo que más puedas

-Este.

>¿Qué software uso, R, Python, Julia?

-EXCEL!!!!!

Importa un carajo qué lenguaje quieras aprender después, al menos debieras aprender uno, cualquiera sirve, pero Excel me lo aprendes a manejar al revés y al derecho antes que nada. No, no es opcional, no es pregunta, no es sugerencia.

>¿Qué libro recomiendas?

Primero que todo, lo mejor y más actualizado ESTÁ EN INGLÉS, por lo que saber leerlo es prácticamente un pre requisito, si no saben inglés, olvídense de entrar bien al mundo de los datos, o prácticamente cualquier trabajo de capital humano avanzado hoy en día.

Dicho eso, entrego mis recomendaciones por rango (todos los pueden descargar de Libgen):

a) “No sé nada, ayudaaaa”:

  • Discovering Statistics de Andy Field.

b) “Ya ok, se algo, como sigo”:

  • Teoría: Designing Social Inquiry de King, Keohane y Verba, Mostly Harmless Econometrics de Angrist y Pischke, The Book of Why de Judea Pearl, The Effect de Huntington-Klein, An Introduction to Statistical Learning de Gareth James y otros (tiene varias reversiones, tomen cualquier que les acomode), Introductory Econometrics de Wooldridge
  • Teoría y Práctica: Statistical Rethinking de McElreath, AnalizaR Datos Políticos de Urdinez y Labrin, Using R for Introductory Econometrics de Florian Heiss (es un complemento del de Wooldridge)

>¿Me cambio de carrera :( ? ¿Hago un posgrado? ¿Diplomado?

Respecto a la primera pregunta, si están en los primeros años, mi respuesta sería, SI, arranquen del barco ahora.

Respecto a las otras dos, eso dependerá del país. Solo puedo hablar de Chile, y ahí solo diré que por el pico los diplomados, no boten plata en estos, salvo que se los regalen, o esten muy baratos.

Los únicos que rentan bien son los grados (ie magíster, doctorado), y las certificaciones, estas últimas sobre todo pa las empresas. Esos cursos Sence conducentes a certificaciones, sirven harto. Ahí los grados que sean en estadística, data science, ingeniería de datos, cualquiera de esos sirve, fijense en si la malla cubre las cosas que estoy diciendo en esta nota.

Por último, volviendo a la gente que quiera reinventarse o cambiarse de carrera, la informática y ciencias de la computación, la estadística, o incluso las ingenierías industriales, comerciales, ofrecen un plano más provechoso y rentable para entrarle a este mundo con más competencias y de mejor manera.

>¿Qué otras cosas debiera saber o investigar para afirmarme mejor?

De todas debieran saber al menos un poco, sobre todo de Bases de Datos, ahí elijan ustedes en cual quieren especializarse:

  • Visualización de datos y desarrollo de Dashboards (Tableau, LookerStudio, Power BI, cualquier sirve)
  • BASES DE DATOS (esta es casi obligada), aprender que es un modelo entidad relación, y manejar SQL; da lo mismo cual, todos los SQL hacen lo mismo y tienen sintaxis casi idénticas, con variaciones mínimas.
  • La nube. Entender que es una máquina virtual, o un servidor, y configurarlo, nuevamente, da lo mismo cual, manejen al menos un poco de alguna, sea AWS, Azure, IBM, Google Cloud, etc. Vean tutoriales, si les ofrecen o les regalan créditos en sus Ues úsenlos, etc.
  • Web scraping. No es obligatorio, pero es una herramienta brutalmente útil, con múltiples casos de uso (me ha salvado más de una vez)
  • Cálculo y algebra lineal. Sobre todo entender qué diablos es la optimización y aprender a resolver o pensar en clave optimizar, esa wea los perseguirá el resto de sus asintóticas vidas. Mientras más cálculo y algebra lineal manejen, más cosas podrán hacer (y al revés, mientras menos manejen, más restringirán su competencias y lo que puedan hacer)
  • PROBABILIDAD. Esto si es obligatorio, literalmente su eventual trabajo será navegar entre fenómenos estocásticos, y sacar información a partir de ellos. Entender que es una proba condicional, y todo lo que se deriva de esto, les abrirá puertas analíticas. Nuevamente, hay muchos cursos en línea de esto, cualquiera sirve.
  • Pipelines y ETLs. Gran parte de lo que hagan será llevar conjuntos de datos de un lado a otro, limpiarlos, y ponerlos en un solo lugar para poder analizarlos. Los pipelines y procesos ETL hacen exactamente eso. Aprendan a programar uno en un lenguaje de programación o un software como DataTools o Knime.
  • Modelamiento de Procesos, y notación. Un modelo es solo una herramienta para pensar, que puede implicar mayor o menor nivel de detalle según el problema que se quiera resolver. En ese sentido el Business Process Model Notation, se les presentará como una herramienta para pensar visualmente los procesos que están investigando, y comunicarlos a otros. Visio, Bizagi u otros, son los softwares amigos acá, aunque si aprenden bien la notación, pueden hacerlo hasta en ppt, lo importante es el método de razonamiento.
  • Un lenguaje de programación, nuevamente, da lo mismo cual, al menos especialicen uno, de preferencia Python, ya que es el más versátil, aunque si solo harán analítica, con R o Julia tienen lo que necesitan. Personalmente uso R y Python por igual, dependiendo el problema que me enfrente.
  • Gobierno de Datos. Este es un problema más reciente, y ya es para un perfil más senior, pero es bueno que al menos sepan que existe, y que hay frameworks para pensarlo. Por lo demás, es hoy el gran desafío que enfrentan las organizaciones grandes o en proceso de maduración de sus datos. Ahí investiguen que es el DMBOK, DCAM, la ISO 8000–51, CMMI de madurez de gestión de datos, etc. Partan por cualquiera.

Hay algunos detalles más como entender que todo esto se mueve en un dominio, con sus respectivas particularidades, no es lo mismo modelar un panel de países, que uno sobre series climáticas o de meteoritos. Así también es preciso entender que todo dato codifica una tonelada de supuestos y decisiones más o menos arbitrarias que es preciso incorporar al momento de hacer análisis, por lo que es CENTRAL siempre leer la documentación, o preguntar como se generaron esos datos.

Si, es bastante lo que hay que saber, pero eso es justamente lo que la gente que trabajamos con Datos hacemos y manejamos, con diversos grados de profundidad (aunque hoy en día existen varios charlatanes que no manejan una mierda, y aún así logran meterse al área, pero en fin).

Puede que esto les abrume un poco, pero una vez vean el nivel de empleo y rentabilidad que ofrece esta área, se les pasará. En lo personal, haber estudiado informática ha sido la mejor decisión que he tomado en mi perra vida.

--

--

Sientifiko

Ingeniero Dialéctico. Puede seguirme en @sientifiko1 por tuiter, o @sientifiko.memero en facebook