Cómo construir items para encuestas o evaluaciones: breve guía para saber cómo y qué preguntar

Sientifiko
15 min readOct 8, 2023

Se dediquen a las ciencias sociales o no, en algún punto de sus vidas, es altamente proble que les toque formular algún instrumento para preguntarle cosas a la gente, ya sea para: conocer su opinión o evaluación sobre un tema, estudiar su conducta, medir sus conocimientos, detectar algún problema, o cualquier otro fenómeno para el cual la primera fuente sea directamente la consulta.

Aquí es común partir simplemente redactando preguntas en un formulario, generalmente google form, hacerlo correr, y luego, asumiendo que tuvo buena difusión, encontrarse con un archivo perfectamente tabulado. Esto muestra lo fácil y barato que resulta recopilar esta información, pero al mismo tiempo, supone cometer muchos errores, que parten por no entender primero, como opera la psiquis humana frente a estos instrumentos, y segundo, ignorar componentes culturales, e incluso, históricos que han ido dando forma a ciertas sociedades (dejando de lado el caso de aquellos que usan estos instrumentos más para inducir una respuesta específica, que para intentar elicitar o resolver un problema, eg: encuestas de opinión pública).

Ejemplo ficticio de una pregunta con items desbalanceados

Para nuestra fortuna, existen montón de recursos “heurísticos” que nos ayudan a orientar la construcción de este tipo de instrumentos, los cuales sintetizaré en un par de tips. Al final del texto dejaré algunas referencias para que puedan citarlas en sus trabajos, o por si quieren profundizar.

En lo que sigue abordaré los siguientes puntos:

  1. Las preguntas y los softwares
  2. ¿Cuál es tu variable latente?
  3. Ancla tus preguntas
  4. Funcionamiento diferenciado y varianza cultural
  5. Incentivos y perversión
  6. Percepción vs codificación factual

Las preguntas y los softwares.

Para partir, es preciso entender que todo instrumento sea encuesta o una prueba, es ante todo, un artefacto que impacta o estimula directamente a un usuario final, por medio de figuras audiovisuales, como preguntas orales o escritas, para las cuales se ofrece una serie de funciones como la capacidad de jerarquizar, hacer selección múltiple, señalar verdedero o falso, introducir texto, entre otras, lo que llamaremos “reactivos”.

Es preciso enfatizar, que el diseño de los reactivos ES un componente y contenido del instrumento mismo. El orden de las preguntas, la facilidad para navegar, la cantidad de texto, si hay o no imágenes, la extensión del instrumento, etc, todo, absolutamente todo ello, impactará en las respuestas que se tengan, o incluso, en el rechazo a responder, por lo que lo primero, con lo que quisiera partir es con la “Experiencia de Usuario” (UX).

Durante buena parte de la historia de la pedagogía y las ciencias sociales, el principal software para levantar información de este tipo, era simplemente resmas de papel impreso con múltiples items. En gran parte en el ámbito escolar y levantamientos de estadísticas públicas (como censos), este sigue siendo el estandar, pero el mundo de las aplicaciones web, ha cambiado radicalmente el abanico de posibilidades para preguntar: drop down list, preguntas costumizadas por el usuario, drag and drops, sliders, etc, permiten capturar varios matices distintos de los que permite el papel.

Aquí el consejo es más bien simple: diseñen las preguntas y reactivos, en función de la herramienta a utilizar. Google forms permite múltiples reactivos, pero también está muy limitado, exploren otras herramientas, y vean que es lo que les ofrece, tal vez otras tengan reactivos más precisos para lo que se quiere medir (aunque generalmente son de pago, algunos no resultan tan caros).

Y otro punto importante: prueben como se ve del lado del usuario. Respóndan el instrumento antes de enviarlo, y sobre todo, prueben como se ve desde el celular, que es el principal medio por el que hoy se contestan estos instrumentos.

¿Cuál es tu variable latente?

El primer y más fundamental error, es no tener clara cuál es la variable latente que quieres capturar. Todo, absolutamente todo instrumento de este tipo, siempre que esté hecho bien, presupone una variable latente, que no es otra cosa que una gran categoría abstracta que se busca “estimar”.

La intuición detrás de una variable latente, es que existe una categoría abstracta no directamente observable, como por ejemplo, el grado de melancolía, las competencias generales en comprensión lectora o razonamiento lógico, la disposición a creer en mierdas pseudoprofundas, el grado de democracia de un país, etc.

A ninguna de estas categorías, se puede ir y ponerle un termómetro, o sensor, para medirla, pero si tiene una serie de implicancias observables, que en caso de que la variable latente esté presente, entonces estas implicancias también lo estarán, y podrán ser “correlacionadas” entre ellas (o más bien, podrán ser proyectadas en una única dimensión, por medio de una manipulación o rotación matricial).

En la figura se ilustra una cateogría abstracta subyacente no directamente observable, la cual explica 3 categorías observables. Dado que solo tenemos las categorías observables, al ser combinables linealmente entre sí, podemos suponer que para las 3 existen una categoría abstracta subyacente que las explica, y a la que podemos aproximarnos al colapsar nuestros 3 componentes observables en uno.

Por ejemplo si definimos la democracia bajo el estandar de democracia liberal (ie. partir de conceptos), entonces una implicancia observable es que exista elección de autoridades, que existan partidos políticos, que existan múltiples medios de comunicación, etc. Alguien podría decir que ninguno de esos componentes son suficientes, y que la democracia es un concepto más profundo, y la respuesta es, dale, redefine la variable latente, y luego desármala en las implicancias observables. Esto ya comienza a mostrarnos por qué este tipo de herramientas se prestan para malas prácticas, y por qué a esas basuras llamadas ciencias sociales, sobre todo a la psicología, le gustan tanto, ya que les permite inventar cuanta basura ideológica se les ocurra, desarmarla en items, y luego aplicarle una rotación matricial a las respuestas para vestirla de ciencia. En fin.

El corolario es, no partas diseñando items y reactivos, sin antes tener claro cual es la variable latente que quieres capturar, entendiendo que esta puede ser casi literalmente, lo que se les ocurra. Luego cada item y reactivo que se diseñe, intenten conectarlo lógica o argumentativamente con la variable latente, si ven que no lo logran, el item está mal hecho.

Ancla tus preguntas

Uno de los principales desafíos a la hora de diseñar items, es la ambigua barrera del lenguaje; un texto escrito de una forma, puede tener múltiples interpretaciones o lecturas dependiendo de una infinidad de factores incontrolables. En general la respuesta que dan quienes se dedican a esto, es asumir que las propiedades asintóticas harán lo suyo, y que al agregar las reacciones sobre un N grande o aleatorizado, basta para obtener una estimación aceptable, o al menos, una sesgada en un sentido sistemático, y por ende, posible de corregir/ajustar.

Ignoremos esa discusión de momento, y asumamos que tienen razón, aún así esto nos deja con la pregunta de si tal agregación tiene sentido. Por ejemplo, si agrego 1000 pesos argentinos, y 1000 pesos chilenos, se que tendré 2000 unidades de algo, pero ¿Cuánto dinero tengo?¿Es mucho o poco?

Ocurriría algo similar si a una persona le pidieramos que evaluara su competencia en una escala de 5 puntos (muy incompetente a muy competente). Además de que una pregunta de este estilo, tendría a generar un sesgo positivo (asumiendo que no hay muchos síndrome de impostor en el grupo), provoca la pregunta ¿Con respecto a qué?

Una persona en un puesto altamente competitivo, para el que se requieren muchas habilidades, podría contestar que tiene una competencia “promedio”, pero alguien en un ambiente rutinario, donde solo se debe desempeñar una tarea mecánica, puede señalarse “muy competente”, luego ¿Qué sentido tendría agregar el grado de competencia de estas dos personas? ¿Podría decirse que el grupo muestrado es algo competente, o que es muy competente?

Aquí la correción es justamente introducir ese “con respecto a qué” en el item. En una escala de 5 puntos, evaluar el grado de madurez de la empresa para enfrentar la actual legislación ambiental, en una escala de 5 puntos evaluar el bienestar del hogar con respecto a la realidad del país, etc.

Esto es lo que conocemos como “anclas”, son recursos o pistas textuales, que ayudan a enganchar las respuestas en torno aun punto único, a partir del cual el sujeto reaccionará. Luego, al introducir una variable que ajuste por el grado de severidad de la legislación ambiental, o la realidad del país, uno podrá analizar el sentido de tal evaluación, y calibrar las respuestas antes de agregarlas. Por supuesto, tal agregación sigue sin ser perfecta, pero al menos se logró reducir un poco el problema de la ambiguedad.

Ahora bien, es importante entender que las anclas necesariamente tendrán un impacto en las respuestas a obtener. Un ejemplo clásico, es el experimento que hacía Richard Thaler con sus estudiantes, a quienes les pedía que que anotaran los 3 últimos dígitos de su celular, y luego les preguntaba en qué año los hunos invadieron Europa, si era más alto o más bajo que el número anotado. El resultado fue que quienes tenían los 3 dígitos más altos, tendieron a dar años más altos, y viceversa, pero la respuesta correcta es el 370 antes de cristo.

La implicancia de esto es que un ancla mal usada perfectamente puede inducir una respuesta incorrecta, y luego la información recogida tiene mucho menos que ver con el atributo que se busca capturar de la persona, y más con el estímulo que provocó el instrumento.

Por supuesto, esto es difícil de definir a priori, y por ello es importante, pilotear un poco los items antes, pero aquí les dejo 2 tips que si se pueden tener en cuenta antes.

  1. El orden importa: Digamos que me interesa medir la percepción generalizada de inseguridad, y parto con un set de preguntas que incluyen datos factuales sobre delincuencia o asesinatos. Evidentemente todo lo que pregunte después se podrá ver influenciado por estos estímulos. Organicen el contenido de tal forma que todo lo que tenga que ver con recepción de estímulos adicionales (estadísticas, imágenes, enunciados, etc), quede en un solo gran bloque o sección de preguntas dedicadas, posterior. Así también considera el efecto de “encuadre” o framing. Si por ejemplo incluyo un set de preguntas sobre terrorismo, y luego incluyo una batería de preguntas sobre cierta etnia o movimiento social, se acaba de introducir un marco general sobre el cual pensar estas entidades, y que nuevamente, tenga un impacto potencial en las respuestas.
  2. La cantidad de opciones importa: Hay mucha discusión sobre cuantas opciones es lo óptimo en una escala likert, si 3, 4, 5, etc. Algunas aproximaciones empíricas muestran que no existe mucha diferencia entre contestar 4 a contestar 5, pero este tipo de evaluaciones son profundamente absurdas, ya que primero, no consideran el contexto y dominio de aplicación, y segundo, no entienden como opera la rotación matricial. En una escala de 5 puntos el punto 3, es un punto neutral o intermedio, tal que si uno trabaja con una rotación lineal, ese punto parece no capturar información, y generalmente se omite, pero eso da lo mismo, al aplicar la rotación, se tomará el conjunto de respuestas a lo largo de los items, para intentar cargarlo sobre el factor o variable latente definida, eso lo hará a fuerza bruta, independiente de cuantos puntos tenga la escala, por lo que la información contenida en esta dimensión no se pierde. Y por otro lado, si todo el mundo responde en el punto medio, sin ninguna sofisticación estadística es posible dar cuenta que algo está pasando con el item o con el fenómeno estudiado. Aquí también aplica lo mencionado sobre las “anclas”, si entrego una escala de 4 puntos, estoy obligando a alguien sin postura a tomar una, luego ¿Cuanto de lo capturado tiene que ver más con el diseño del reactivo que con la postura real del sujeto? En síntesis, el único criterio para definir la cantidad de items, esta dado por el dominio de aplicación, y nuevamente, la proyección que tal item se espera tenga sobre la variable latente.

Y por supuesto, tengan ojo con el desbalance de las opciones, como se mostró en la primera figura de esta nota, si las escalas incluyen calificaciones asegurense de tener reacciones buenas y malas en igual proporción.

Funcionamiento diferenciado y varianza cultural

Otra gigantesca fuente de ambiguedad de estos instrumentos, tiene que ver directamente con la posición y contexto de la persona que responde, y cómo a partir de ese entorno reacciona a los reactivos dispuestos en el instrumento.

Digamos que quiero medir el grado de integridad electoral, y pregunto a expertos tanto de África como de Europa o Asia, sobre la emisión de votos fraudulentos de una misma elección. Dadaos las diversos estándares democráticos que presentan cada una de estas regiones, lo que para unos podría ser leído como una evidente muestra de fraude, para otros pueden ser incidencias normales de cualquier proceso electoral, como los que viven en su país, y esto es exactamente lo que se ha encontrado. Es decir, aquí el item está capturando menos la confiabilidad en la elección, y más los sesgos idiosincráticos a la hora de evaluar un atributo de la realidad.

Este es un tema tremendamente complejo, sin una solución fácil, y que de manera más reciente, ha abierto una veta gigantesca de debate en torno a la diferencia de las muestras WEIRD (Western, Educated, Industrialized, Rich, and Democratic), versus el resto del mundo. Esto es, los “hallazgos” de muchos estudios de psicología, al ser aplicados en otros contextos no WEIRD, no replican, y lo que es peor, el grueso de las investigaciones en ciencias sociales históricamente se ha basado en este tipo de muestras, o sus equivalentes en sus respectivas regiones (generalmente muestras de personas más ricas y educadas).

Aquí lo mejor que se puede hacer, es traer el componente cultural, y sobre todo, histórico a la construcción de los instrumentos, aunque su resultado no resultará del todo grato, ya volveré sobre esto. Por ejemplo, digamos que queremos medir algo tan absurdo como “el grado de victimismo” (hacer cosas absurdas es habitual en psicología), esto es, que tan víctima se sienten ciertos grupos frente a ciertos eventos, por ejemplo el grado de mentalidad victimista entre izquierda y derecha ante agresiones.

Luego voy y con base a una escala pregunto a gente de izquierda su grado de victimismo por la violencia policial, o su discriminación por ser comunista, anarquista, etc. y hago algo similar en grupos derecha, en lo que respecta a los derechos de aborto, sacrilegio a figuras religiosas, etc. Luego comparo las medias de los resultados de ambos grupos, y compruebo que la izquierda, o la derecha, se siente más víctima que el otro grupo político.

Hasta aquí todo bien, pero ¿Qué pasa si en uno de esos países de donde se levantó la muestra tuvo hace no mucho una dictadura que persiguió sistemáticamente a comunistas o cristianos? ¿Qué pasa si en uno de esos países, existen leyes ultra conservadoras en materia de aborto o alusiones a cuestiones religiosas, o da mucha libertad a la represión policial ante protestas? Pues en este caso las preguntas estan capturando menos la percepción de victimismo, y más la objetivación de víctima producto de la dinámica histórica local.

Esto implica que por ejemplo, comparar el victimismo de Chile en materia de ataques a memoriales por violación a DDHH, versus ataques a iglesias en Chile, para hacer esa inferencia del victimismo de izquierda y derecha, no tendría ningún sentido. Los memoriales de DDHH reflejan una realidad objetiva de persecusión sistemática, que duró más de 10 años, y que fue dirigida hacia los grupos de izquierda en específico. Las quemas de iglesias, o agresiones a policias por otro lado, temas sensibles para la derecha, son eventos puntuales, no dirigidos de manera específica ni directa, a la derecha, ni mucho menos con la sistematicidad que implica una burocracia militar. Sería completamente esperable que grupos de izquierda se sintieran mucho más “víctimas” que los segundos, por que objetivamente lo fueron, o ellos, o parientes, o conocidos, mientras que la derecha solo verá agresiones contra elementos que representan su identidad, de vez en cuando en los medios, dependiendo de lo álgido que sea la protesta.

Es decir, los clivajes de “victimismo” entre izquierda y derecha, están directamente embebidos por la historia objetiva del país, siendo imposible abstraer la postura política de esta, y lo mismo aplica para TODOS los países. Esto nos muestra que, traer la trayectoria histórica antes, si bien no pueda ser muy práctica para construir items y reactivos de manera específica, si resulta muy útil para descartar imbecilidades pseudoacadémicas antes de emprenderlas.

Por útlimo, es preciso tener en cuenta una importante implicancia de esta dimensión en el mundo de la educación. Por razones que van más allá de mi conocimiento actual, ciertos grupos presentan desempeños distintos ante distintos items, por ejemplo mujeres o grupos étnicos, tienden a responder correctamente ciertos items, en mayor medida que sus pares, y viceversa. Luego, si yo solo considero en una evaluación aquellos items que son contestados correctamente en mayor proporción por un grupo que por otro, por construcción estoy introduciendo un sesgo cultural, el cual al aplicarase de manera uniforme, en la práctica impone tal sesgo cultural, en vez de medir competencias de aprendizaje (o lo hace en un sentido, sesgado por construcción).

Algunas herramientas que se ocupan para lidiar con esto, es el análsis de funcionamiento diferenciado de items, y el estudio de métricas de invarianza cultural, pero el tema de fondo tiene menos que ver con cuestiones cuantitativas, y más con el estudio del fenómeno y realidad concreta que se está buscando describir. Es decir, no partan de conceptos.

Incentivos y perversión

Este punto se deriva un poco de los puntos anteriores, pero en un sentido más específico, y generalmente contingente ¿Qué situación actual se enfrenta el sujeto a la hora de reaccionar al item?

Supongamos que pregunto sobre la validación de la violencia como un mecanismo de protesta en una encuesta de opinión pública, en un contexto de protestas masivas contra un gobierno que ha cometido muchos “errores”. Probablemente se tenga una respuesta positiva por gran parte de los que responden.

Digamos que el contexto cambió totalmente, y ahora una facción radical de cierto grupo con una demanda histórica, realiza un acto terrorista que perjudica a múltiples “inocentes”, y luego hago la misma pregunta. Ahora sería esperable que la gente no valide la violencia ¿Eso significa que la gente es bipolar, que cambió de opinión con respecto a la violencia? Nuevamente, para el cientista social charlatán, como muchos de los que hacen encuestología, la respuesta es sí, pero ustedes que ya han leído esta nota, habrán notado por qué esa comparación es absurda.

Finalmente, me gustaría agregar otro ejemplo ilustrativo, más personal. Digamos que quiero levantar el grado de satisfacción en la asignación de fondos de fomento para una unidad subnacional, como una comuna, o condado. Agreguemos que por encima de tal unidad subnacional, hay otra unidad subnacional más grande como un Estado Federal, una Provincia, o Región, y que es desde donde se asignan los recursos. Por último los cargos de elección popular para ambas unidades subnacionales, son independientes, permitiendo fenómenos de “cohabitación” (unidades más pequeñas con una posición política opuesta a la de la unidad mayor, y viceversa)

Si yo fuera y preguntara a la unidad territorial más pequeña, sobre su satisfacción en la asignación de recursos, lo primero que debiera tener en cuenta, es cual es la posición o partido de este sujeto. Es totalmente esperable que si la posición de la unidad territorial más pequeña no coincide con la de la más grande, dados la lógica en la asignación, la más pequeña tengan incentivos a reportar niveles de satisfacción más baja (sean o no los recursos asignados de manera políticamente desigual), y viceversa.

Aunque estos ejemplos son un tanto casuísticos, el corolario de ambos es: a la hora de diseñar un item considera si existen incentivos institucionales o políticos, que empujen una u otra pregunta. Nuevamente, no diseñen instrumentos sin antes repasar el contexto.

Percepción vs codificación factual

Este es un aspecto totalmente práctico, y tiene mucho que ver con la pregunta, y lo que se quiere capturar. Digamos que quiero evaluar la situación económica de alguien, aquí puedo hacer varios items que subjetivamente indiquen si tiene algún nivel de estrés por el dinero, por deudas, o si llega con lo justo a fin de mes. Por otro lado, puedo preguntar directamente por sus ingresos, si tiene, estudios, casa o auto propio.

En un caso preguntarán percepciones, y en el otro, hechos factuales. Las implicancias de ambas es clara, y por supuesto, pueden combinarse. Por ejemplo podría partir preguntando por percepciones (recuerden, el orden importa), y dejar al final lo factual, cosa de recopilar aspectos interpretativos, por ej. sujeto que se percibe con alta deficiencia financiera, pero tiene ingresos que lo ubican en el 25% más rico, no tiene hijos, tiene casa propia, estudios universitarios, etc. En este caso, tendríamos a un sujeto que simplemente no sabe administrar bien su dinero.

Por otro lado, los hechos factuales de manera agregada, pueden por si solos señalar algo relacionado a la variable latente a capturar, sin requerir percepciones subjetivas. No importa que tanto algunos crean que las elecciones de su país son fraudulentas, si en la práctica son visadas por observadores internacionales, participan ciudadanos elegidos de manera cuasi aleatoria a lo largo de todo el proceso, es posible trazar y auditar todo el flujo de votación desde su emisión a su conteo final, y así una larga lista de criterios factuales, pues no queda otra que reconocer objetivamente que tal sistema electoral es perfectamente creíble, más allá de lo que algunos piensen.

Aquí el corolario es: al momento de diseñar el item, cuestionate si es preciso pedir una evaluación subjetiva, o si es más apropiado descomponer tal percepción en una serie de indicadores factuales, que reflejen un tanto más objetivamente la situación.

Por último dejo dos buenos manuales para meterse en los aspectos más cuantitativos y teóricos (ambos encontrables en Libgen):

  • “The basics of item response theory using R”, de Frank B. Baker , Seock-Ho Kim. Es excelente, aunque es preciso entender algo de notación matricial y manejar algo de cálculo pa entenderlo bien. La verdad eso es medio pre requisito pa hacer este tipo de análisis.
  • “Latent Variable Modeling with R”, de Brian F. French and W. Holmes Finch. Este requiere menos matemática que el anterior, pero si algunas cosas básicas de estadística.

Puede que hayan mejores textos que estos, pero cuando empecé a estudiar estos temas, fueron los mejores que encontré.

--

--

Sientifiko

Ingeniero Dialéctico. Puede seguirme en @sientifiko1 por tuiter, o @sientifiko.memero en facebook