Explicando con números IV

En la última entrega de “Explicando con números” vimos los diferentes niveles de medición con los que podemos trabajar, así como tres medidas distintas de tendencia central. Describir un conjunto de datos es, a menudo, interesante de por sí, pero la estadística social tiene mucho más que ofrecer. En este artículo vamos a introducirnos en la asociación de datos, y para ello es muy importante que se tengan en mente todos los conceptos explicados en los últimos tres artículos.

Índice

De una variable a dos o más variables

Hasta ahora hemos visto cómo hablar y describir con propiedad una variable (algunos ejemplos usados: salario de futbolistas, número de casas en una sociedad). Sin embargo, en el mundo social que nos interesa estudiar las cosas no suceden independientemente las unas de las otras. Una variable puede estar estrechamente relacionado con otra, por ejemplo: cuando una variable incrementa su valor, otra variable decrece en cierta proporción. En definitiva, nos interesa ver el efecto que algo tiene sobre otra cosa (o conjunto de cosas). Cuando nos interesa saber si una variable afecta a otra variable (y en qué medida) usamos lo que llamamos medidas de asociación. Las medidas de asociación, al igual que las descripciones o las medidas de tendencia central, se diferencian en base al nivel de medición de los datos, por lo que cada nivel de medición tiene su medida de asociación.

En este artículo vamos a comenzar con la asociación de categorías, y lo haremos de la forma más sencilla: comparando dos categorías. A esto lo llamamos análisis bivariable porque solamente nos interesa estudiar la asociación entre dos variables (el efecto que una puede tener sobre la otra). Aunque rara vez nos interesa pararnos en el análisis bivariable (el análisis multivariable ofrece, como es lógico, mucho más), en muchas ocasiones nos basta con estudiar, rápidamente, la asociación entre dos variables de la vida cotidiana que nos llaman la atención.

Conceptos importantes a tener en cuenta

Como he dicho más arriba, en este artículo vamos a ver cómo estudiar la asociación entre dos categorías simples. Nos interesa saber si dos variables están relacionadas y, si lo están, en qué medida (o qué efecto tiene una variable sobre la otra). A esto lo hemos llamado asociación, pero seguramente hayáis leído/escuchado el término correlación por ahí. “Correlación” y “asociación” tienen mucho que ver, pero a efectos prácticos (y para los intereses de este artículo) no nos interesa entrar en los detalles minuciosos. Así pues, digamos que ambas, correlación y asociación, tienen que ver con la relación existente entre dos (o más) variables las cuales cambian conjuntamente de una forma u otra (por ejemplo, siguiendo un patrón lineal, una tendencia no-lineal, etcétera).

Por otra parte, hay un concepto que reviste máxima importancia en estadística. Este concepto es el de causalidad. Decir que el aumento de la renta per cápita en una sociedad está relacionado con el aumento del voto de derechas es establecer una correlación/asociación. Otra cosa bien distinta es decir que el aumento de la renta per cápita es la causa del incremento del voto de derechas. La causalidad implica un afirmación mucho más consistente (o fuerte) que la estadística social no puede sostener por sí sola. Explicado de una forma sencilla: establecer una relación de causalidad entre una variable X, y otra variable Y, implica decir que Y no sucedería si X no sucede antes (es decir, X es la causa de Y). La estadística estudia lo que observamos, es decir, lo que ha sucedido (aunque se pueden hacer predicciones sobre el futuro, pero siempre reconociendo cierto margen de error), por lo que lógicamente no se puede establecer con total seguridad que X es la causa de Y (pues no podemos comprobar lo contrario, es decir, el resultado de algo que nunca ha sucedido). Para ello la estadística social (el estudio de datos) tiene que estar acompañado de teoría social, de ahí que la sociología hoy en día sea una potente herramienta para estudiar multitud de cosas. Cuando juntamos estadística social (el estudio de lo que pasa), con teoría social (el estudio del porqué las cosas pasan), entonces llegamos a explicaciones mucho más potentes y sólidas.

Finalmente, el último concepto que tenemos que tener en cuenta es el de dependencia. Las variables de nuestro interés pueden estar relacionadas y conformar una relación estadística de dependencia, y aunque no podamos decir que X causa Y, sí que podemos decir (tal vez) que X es independiente de Y. Una ejemplo clásico que se usa cuando hablamos de dependencia/independencia es el de sexo y salario. En las sociedades capitalistas sabemos que las mujeres cobran mucho menos por el mismo trabajo realizado por hombres. Podemos decir que tu salario está relacionado con tu sexo, como también podemos estudiar la dirección de esa relación (salarios más altos para los hombres, y salarios más bajos para las mujeres). Pero también podemos decir con seguridad que tu sexo no es dependiente de su salario (sería un disparate). Un truco sencillo para ver si una variable es independiente de otra es ver la temporalidad de las variables. En el ejemplo de sexo y salario, el sexo de una persona viene dado antes en el tiempo que su salario.

La asociación entre dos categorías

Estudiar la asociación de dos variables es el primer paso, y más sencillo, a dar. Para ello tenemos que crear una tabla en la que las categorías de ambas variables se crucen. Para ilustrar este ejemplo he tomado los datos correspondientes al Estado español de la encuesta European Social Survey del año 2012. La variable “votación” proviene de preguntar a las personas si votaron en las últimas elecciones nacionales, y la he simplificado a dos categorías: “sí” y “no.” El resultado de cruzar esta variable con el sexo de las personas resulta en la tabla de más abajo (además, he suprimido los casos de aquellas personas que no podían votar por razones de edad o no contestaron a una de las dos preguntas en cuestión).

Sí votó,693 (76%),653 (77%),1346

No votó,220 (24%),196 (23%),416

Total,913,849,1762
[/etable]

El siguiente paso para analizar la asociación entre dos variables es fijar qué variable es la independiente, y cuál es la dependiente (en otras palabras, qué variable influye sobre la otra). En este ejemplo las cosas están muy claras: sexo es la variable independiente (no tiene sentido decir que el hecho de haber votado o no en las últimas elecciones nacionales determine el sexo de una persona). Cabe mencionar que es costumbre colocar la variable independiente en la parte superior de la tabla, es decir, en las columnas. Para estudiar la asociación entre las dos variables, lo siguiente que realizamos es calcular el porcentaje a lo largo de la variable independiente (esto es muy importante). Como se puede observar en la tabla de más arriba, los porcentajes corren en columnas, y no en filas. El porcentaje, aquí, no es respecto al total de casos observados (1.762 personas), sino respecto a los marginales (913 y 849). El siguiente paso es comparar los porcentajes en filas, es decir, el porcentaje de mujeres que votaron (o no) con el porcentaje de hombres que votaron (o no). Cuanto más grande la diferencia, mayor la asociación. En este ejemplo la diferencia es nula, por lo que no se podría concluir que el sexo de una persona importa mucho a la hora de ir a votar o no.

Palabras finales

La tabla expuesta más arriba tiene el formato típico de las tablas que normalmente se presentan en la prensa convencional: dos variables, dos categorías por cada variable (lo que se llama una tabla 2×2). Aunque el ejemplo no mostró diferencia alguna entre hombres y mujeres, la lógica aplicada es la misma que se ha de usar en todas las tablas de este tipo (en otros artículos por venir veremos como analizar tablas más complejas). Lo importante a recordar es que asociación o correlación no significa causalidad, y que a la hora de analizar una tabla hay que tener bien en mente qué variable es la independiente y cuál es la dependiente (puesto que se podría llegar a conclusiones erróneas, o también se podrían calcular los porcentajes en la dirección errónea). Finalmente, a la hora de leer/analizar una table presentada en la prensa, es importante no poner tanta atención en los números totales (número total de personas, número total de tal o cual cosa) sino en los porcentajes relativos a los marginales, pues con ellos podemos ver cómo dos o más variables se relacionan.

Historias desctadas

Universidad ¡Obrera y antiestatal!

[Recomendación] Lectura: Anarquismo y organización: El Debate en el Congreso Internacional Anarquista de 1907