Explicando con números IV

En la última entrega de "Explicando con números" vimos los diferentes niveles de medición con los que podemos trabajar, así como tres medidas distintas de tendencia central. Describir un conjunto de datos es, a menudo, interesante de por sí, pero la estadística social tiene mucho más que ofrecer. En este artículo vamos a introducirnos en la asociación de datos, y para ello es muy importante que se tengan en mente todos los conceptos explicados en los últimos tres artículos.

De una variable a dos o más variables

Hasta ahora hemos visto cómo hablar y describir con propiedad una variable (algunos ejemplos usados: salario de futbolistas, número de casas en una sociedad). Sin embargo, en el mundo social que nos interesa estudiar las cosas no suceden independientemente las unas de las otras. Una variable puede estar estrechamente relacionado con otra, por ejemplo: cuando una variable incrementa su valor, otra variable decrece en cierta proporción. En definitiva, nos interesa ver el efecto que algo tiene sobre otra cosa (o conjunto de cosas). Cuando nos interesa saber si una variable afecta a otra variable (y en qué medida) usamos lo que llamamos medidas de asociación. Las medidas de asociación, al igual que las descripciones o las medidas de tendencia central, se diferencian en base al nivel de medición de los datos, por lo que cada nivel de medición tiene su medida de asociación.

En este artículo vamos a comenzar con la asociación de categorías, y lo haremos de la forma más sencilla: comparando dos categorías. A esto lo llamamos análisis bivariable porque solamente nos interesa estudiar la asociación entre dos variables (el efecto que una puede tener sobre la otra). Aunque rara vez nos interesa pararnos en el análisis bivariable (el análisis multivariable ofrece, como es lógico, mucho más), en muchas ocasiones nos basta con estudiar, rápidamente, la asociación entre dos variables de la vida cotidiana que nos llaman la atención.

Conceptos importantes a tener en cuenta

Como he dicho más arriba, en este artículo vamos a ver cómo estudiar la asociación entre dos categorías simples. Nos interesa saber si dos variables están relacionadas y, si lo están, en qué medida (o qué efecto tiene una variable sobre la otra). A esto lo hemos llamado asociación, pero seguramente hayáis leído/escuchado el término correlación por ahí. "Correlación" y "asociación" tienen mucho que ver, pero a efectos prácticos (y para los intereses de este artículo) no nos interesa entrar en los detalles minuciosos. Así pues, digamos que ambas, correlación y asociación, tienen que ver con la relación existente entre dos (o más) variables las cuales cambian conjuntamente de una forma u otra (por ejemplo, siguiendo un patrón lineal, una tendencia no-lineal, etcétera).

Por otra parte, hay un concepto que reviste máxima importancia en estadística. Este concepto es el de causalidad. Decir que el aumento de la renta per cápita en una sociedad está relacionado con el aumento del voto de derechas es establecer una correlación/asociación. Otra cosa bien distinta es decir que el aumento de la renta per cápita es la causa del incremento del voto de derechas. La causalidad implica un afirmación mucho más consistente (o fuerte) que la estadística social no puede sostener por sí sola. Explicado de una forma sencilla: establecer una relación de causalidad entre una variable X, y otra variable Y, implica decir que Y no sucedería si X no sucede antes (es decir, X es la causa de Y). La estadística estudia lo que observamos, es decir, lo que ha sucedido (aunque se pueden hacer predicciones sobre el futuro, pero siempre reconociendo cierto margen de error), por lo que lógicamente no se puede establecer con total seguridad que X es la causa de Y (pues no podemos comprobar lo contrario, es decir, el resultado de algo que nunca ha sucedido). Para ello la estadística social (el estudio de datos) tiene que estar acompañado de teoría social, de ahí que la sociología hoy en día sea una potente herramienta para estudiar multitud de cosas. Cuando juntamos estadística social (el estudio de lo que pasa), con teoría social (el estudio del porqué las cosas pasan), entonces llegamos a explicaciones mucho más potentes y sólidas.

Finalmente, el último concepto que tenemos que tener en cuenta es el de dependencia. Las variables de nuestro interés pueden estar relacionadas y conformar una relación estadística de dependencia, y aunque no podamos decir que X causa Y, sí que podemos decir (tal vez) que X es independiente de Y. Una ejemplo clásico que se usa cuando hablamos de dependencia/independencia es el de sexo y salario. En las sociedades capitalistas sabemos que las mujeres cobran mucho menos por el mismo trabajo realizado por hombres. Podemos decir que tu salario está relacionado con tu sexo, como también podemos estudiar la dirección de esa relación (salarios más altos para los hombres, y salarios más bajos para las mujeres). Pero también podemos decir con seguridad que tu sexo no es dependiente de su salario (sería un disparate). Un truco sencillo para ver si una variable es independiente de otra es ver la temporalidad de las variables. En el ejemplo de sexo y salario, el sexo de una persona viene dado antes en el tiempo que su salario.

La asociación entre dos categorías

Estudiar la asociación de dos variables es el primer paso, y más sencillo, a dar. Para ello tenemos que crear una tabla en la que las categorías de ambas variables se crucen. Para ilustrar este ejemplo he tomado los datos correspondientes al Estado español de la encuesta European Social Survey del año 2012. La variable "votación" proviene de preguntar a las personas si votaron en las últimas elecciones nacionales, y la he simplificado a dos categorías: "sí" y "no." El resultado de cruzar esta variable con el sexo de las personas resulta en la tabla de más abajo (además, he suprimido los casos de aquellas personas que no podían votar por razones de edad o no contestaron a una de las dos preguntas en cuestión).

Participación electoral por sexos, Estado español (European Social Survey 2012)
Mujeres Hombres Total

Sí votó

693 (76%) 653 (77%) 1346

No votó

220 (24%) 196 (23%) 416

Total

913 849 1762

El siguiente paso para analizar la asociación entre dos variables es fijar qué variable es la independiente, y cuál es la dependiente (en otras palabras, qué variable influye sobre la otra). En este ejemplo las cosas están muy claras: sexo es la variable independiente (no tiene sentido decir que el hecho de haber votado o no en las últimas elecciones nacionales determine el sexo de una persona). Cabe mencionar que es costumbre colocar la variable independiente en la parte superior de la tabla, es decir, en las columnas. Para estudiar la asociación entre las dos variables, lo siguiente que realizamos es calcular el porcentaje a lo largo de la variable independiente (esto es muy importante). Como se puede observar en la tabla de más arriba, los porcentajes corren en columnas, y no en filas. El porcentaje, aquí, no es respecto al total de casos observados (1.762 personas), sino respecto a los marginales (913 y 849). El siguiente paso es comparar los porcentajes en filas, es decir, el porcentaje de mujeres que votaron (o no) con el porcentaje de hombres que votaron (o no). Cuanto más grande la diferencia, mayor la asociación. En este ejemplo la diferencia es nula, por lo que no se podría concluir que el sexo de una persona importa mucho a la hora de ir a votar o no.

Palabras finales

La tabla expuesta más arriba tiene el formato típico de las tablas que normalmente se presentan en la prensa convencional: dos variables, dos categorías por cada variable (lo que se llama una tabla 2x2). Aunque el ejemplo no mostró diferencia alguna entre hombres y mujeres, la lógica aplicada es la misma que se ha de usar en todas las tablas de este tipo (en otros artículos por venir veremos como analizar tablas más complejas). Lo importante a recordar es que asociación o correlación no significa causalidad, y que a la hora de analizar una tabla hay que tener bien en mente qué variable es la independiente y cuál es la dependiente (puesto que se podría llegar a conclusiones erróneas, o también se podrían calcular los porcentajes en la dirección errónea). Finalmente, a la hora de leer/analizar una table presentada en la prensa, es importante no poner tanta atención en los números totales (número total de personas, número total de tal o cual cosa) sino en los porcentajes relativos a los marginales, pues con ellos podemos ver cómo dos o más variables se relacionan.

Explicando con números III

En la segunda entrega de "Explicando con números" comentaba las distintas formas de describir un conjunto de datos numéricos. Veíamos que existen distintas formas de expresarse, y que no es lo mismo el salario de un "jugador de fútbol promedio" que el "salario promedio de los futbolistas." De ahí llegábamos a que existen distintos niveles de medición y, por lo tanto, distintas medidas de tendencia central. En este artículo vamos a seguir con estadística descriptiva y nos centraremos en dichos niveles de medición y sus medidas de tendencia central. Vamos a ello.

Niveles de medición

Normalmente, para facilitar las cosas a la persona  que se acerca por primera vez a la estadística descriptiva, se habla solamente de tres niveles de medición. Personalmente no creo que haya necesidad de esto, así que aquí vamos a hablar de cuatro distintos niveles de medición, que son: el nominal, el ordinal, el intervalar (de intervalo), y el racional (también llamado de radio o de razón).

El primer nivel de medición, el nominal, es aquel que consta de categorías. Por ejemplo, en las encuestas sociales tenemos muchos ejemplos de datos nominales: sexo (normalmente hombre/mujer en las encuestas), nacionalidad, religión, etcétera. Estos datos, aunque se pueden tratar de forma numérica en el análisis estadístico, no conllevan implícitamente una ordenación numérica, sino que simplemente se refieren a las cualidades de lo observado. Cuando realizamos un clasificación nominal de algo nos interesa que dicha clasificación sea exhaustiva y coherente, lo que significa que una persona/cosa no puede pertenecer a dos categorías al mismo tiempo, y el número de categorías comprende todas las posibilidades existentes. El nivel nominal también se denomina "cualitativo", y con él se pueden hacer más bien pocas cosas en estadística, lo que no significa que sea complemente insignificante.

El nivel ordinal implica un orden de lo que estamos observando o estudiando. Esto no se aplica, como es lógico, al nivel nominal, ¿qué sentido tiene ordenar sexos, religiones o estados maritales? Los datos de nivel ordinal, pues, se pueden ordenar de mayor o menor, lo que también nos permite hablar de que algo es mayor/menor que otra cosa. De nuevo, las encuestas tienen muchos datos ordinales. Las escalas son, por lo general, datos ordinales. Ejemplo: "¿Cómo de contento/a está con su trabajo?" Y las respuestas podrían ser: "muy poco", "poco", "algo", "mucho", "extremadamente." De estos datos podemos decir que "poco contento/a" implica un menor nivel que "mucho" o "extremadamente contento/a." La categoría "algo" estaría en el medio, y mucha gente gusta de poner una categoría media para marcar el "centro" de las respuestas, aunque otra mucha gente no gusta de tener un número impar de categorías de respuesta. Otro ejemplo de datos/variables de nivel ordinal sería la clase social.

El nivel intervalar complementa, de alguna forma, al nivel ordinal. Podemos decir que "poco contento/a" es menor que estar "muy contento/a", pero nos es imposible decir qué distancia separa a "poco" y "mucho." De la misma forma, podemos decir que "clase trabajadora" está por debajo de "burguesía" en la escala socio-económica, pero no podemos cuantificar dicha diferencia. Por lo tanto, los datos/variables de nivel intervalar se pueden ordenar como los de nivel ordinal, pero además se puede cuantificar la distancia que separa cada categoría. La temperatura es un ejemplo de variable intervalar: una habitación a 20 grados Celsius es más caliente que una a 15 grados Celsius, y las separa 5 grados Celsius.

No obstante, el nivel intervalar no es tan "completo" como pueda parecer, pues no podemos decir que una temperatura sea el doble que otra. Por ejemplo: no podemos decir que la temperatura de una habitación es el doble que la de otra tan a la ligera. Si tenemos 30 grados Celsius no podemos decir que es el doble que los 15 grados Celsius de otra habitación, pues otra persona puede medir la temperatura en grados Fahrenheit. Si esto sucede es porque las variables de nivel de intervalo (como la temperatura) no tienen un valor cero inherente, sino que es arbitrario y no significa ausencia de nada. Por ello no podemos decir que una temperatura es el doble, o la mitad, que otra. No obstante, los intervalos de medición son constantes y nos permiten hacer operaciones aritméticas como sumas y restas.

El último nivel es el racional, en el cual sí que se puede decir que algo es el doble (o la mitad) que otra cosa. Hay que pensar en el nivel racional como un nivel intervalar con un cero absoluto significativo. También es útil pensar en el nivel racional como "números" según se presentan en el ideario común. Un ejemplo de variable/dato racional es el salario. Al tener un cero absoluto, estas variables racionales se pueden también multiplicar y dividir (os habréis dado cuenta que los niveles superiores incluyen las características de los anteriores más algunos añadidos). Otro ejemplo de variable/dato racional es la edad: si yo tengo 40 años y tú tienes 20, entonces mi edad es el doble que la tuya (y ambas empiezan en 0 años). Lo mismo se puede decir de los salarios: si yo gano 400 euros al mes y tú ganas 800, entonces tú ganas el doble que yo al mes. Además, como es obvio estos datos se pueden ordenar de mayor a menor: tu salario de 800 euros está por encima del mío (400 euros).

Modas, medianas, y medias

Cada nivel de medición tiene una medida de tendencia central propia, aunque los niveles superiores suman las medidas de los niveles anteriores. En el artículo anterior ya dimos un primer vistazo a las medidas de tendencia central, recordemos: moda, mediana, y media. La moda es simplemente el valor más popular, o la observación más repetida. Pongamos que tenemos una lista de las revueltas sociales sucedidas en la Francia del siglo XIX clasificadas por el principal motivo que las promovió:

En este ejemplo los datos son nominales (recordemos: categorías que hablan de la cualidad de algo) y el valor modal, o moda, es pues es la categoría más observada. Otro ejemplo: pongamos que tenemos clasificadas a las personas de nuestra asamblea por edades:

En este ejemplo estamos hablando de edades (recordemos que es una variable racional), y tenemos tres modas, , , y . Los valores modales, de por sí, nos dicen poco sobre los datos que tenemos. Simplemente señalan las observaciones más recurrentes en nuestra muestra (que no obstante es útil para describir un fenómeno).

La mediana, por su parte, señaliza la observación que tiene antes y después (por arriba y por abajo) el mismo número de observaciones. Es decir, la mediana separa el 50% más bajo del 50% más alto, lo que implica que los datos que tenemos pueden ser ordenados de alguna manera (por lo que no podemos obtener la mediana de variables nominales). Su cálculo es útil para ver cuál es el valor central de la distribución de observaciones ordenadas. Usemos un poco de álgebra esta vez para ver su cálculo. Digamos que tenemos una lista de protestas sociales ordenadas por el número de demandas exigidas al gobierno de turno:

En este ejemplo la mediana es 3. Pero no cualquier 3, pues hay dos protestas que exigieron 3 demandas. El valor de la mediana, pues, sería el 3 que corresponde, digamos, a la protesta social ocurrida en la ciudad de Barcelona (que resulta ser la observación número 3). Al haber un número impar de observaciones el cálculo de la mediana es:

donde la mediana es designada por la cual equivale a la posición (recordemos que es el número de observaciones). Tomemos de nuevo el ejemplo de las protestas sociales y las demandas exigidas. Aplicando la sencilla fórmula tenemos que:

donde

es la observación que ocupa la posición número 3 en nuestra lista ordenada de ciudades y protestas sociales. Ahora imaginemos que tenemos 6 ciudades (es decir, 6 protestas) en vez de 5:

Al haber un número par de observaciones el cálculo de la mediana sigue la siguiente forma:

que es lo mismo que calcular la media aritmética de los dos valores centrales (en nuestro ejemplo estos valores son 3 y 4). El cálculo sería:

En este ejemplo vemos que la mediana es 3.5. La mediana es importante en estadística porque es una medida bastante robusta. Es decir, la mediana no se ve tan afectada por una distribución de valores muy dispersos, por lo que es muy útil para examinar de manera segura los valores centrales de una distribución.

Finalmente, la media (aritmética) es normalmente definida como el valor característico de una distribución, y su cálculo se realiza de la siguiente manera:

donde vemos que la media

es simplemente el valor que resulta de sumar todos los valores de nuestras observaciones, y dividir por el número de observaciones (nada nuevo para nadie, supongo). La media aritmética es útil para describir variables racionales: edades, salarios, etcétera, pero no podemos obtener la media de variables nominales u ordinales. No obstante, hay un problema bastante grande cuando describimos cosas con la media aritmética, y es que ésta es muy sensible a distribuciones poco simétricas (o muy dispersas), resultando así en valores que no dicen mucho. Por ejemplo, digamos que tenemos una población de 6 personas y las ordenamos según el número de casas que tienen:

En este ejemplo la media es casas. Lo primero que tenemos que saber es que no se pueden tener 2,83 casas (no al menos en nuestro ejemplo). Lo segundo que podemos observar es que la media no refleja muy bien la realidad social de nuestra mini-sociedad. Podemos ver que el número de casas () no está muy bien distribuido entre las 6 personas que viven en esta mini-sociedad: una persona no tiene techo, mientras que otra tiene diez casas. No obstante, si solamente tuviéramos el dato de 2,83 casas podríamos estar inclinados a pensar que en esta mini-sociedad la gente vive relativamente bien (pero al ver la distribución en su totalidad, su dispersión, y rango, nos damos cuenta que es una mini-sociedad muy injusta).

Tomando el mismo ejemplo de las casas podemos usar la moda y la mediana para describir de una manera más acertada la composición de esa mini-sociedad. La moda es , lo que nos indica que el número de casas más observado (por persona) es 1. La mediana también toma el valor 1, y en este caso (al estar los datos ordenados) nos indica que la distribución de casas no es muy igualitaria.

Resumen y una última cuestión

Como hemos visto, existen 4 niveles de medición distintos y tres medidas de tendencia central. Las variables racionales pueden darnos la moda, la mediana y la media aritmética, pero las variables ordinales solamente nos dan la moda y la mediana (y las variables nominales solamente la moda). El ejemplo de la mini-sociedad y las casas nos muestra que una única descripción de algo puede dar lugar a ideas sesgadas, por lo que es muy importante tener más datos de aquello que estamos estudiando (los periódicos, por ejemplo, pecan muchas veces de simplificar y crear ideas sesgadas cuando nos muestran datos estadísticos).

No obstante, os habréis percatado que una variable de nivel racional se puede medir en el nivel ordinal o nominal. Es decir, podemos tomar una variable de nivel superior y "rebajarla" a un nivel inferior. Esto es útil es ocasiones muy específicas, pero por lo normal no es deseable hacerlo dado que limitamos el análisis estadístico de los datos. Con palabras sencillas: se pueden hacer más cosas en estadística con una variable racional que con una nominal. Sin embargo, muchas veces nos puede resultar difícil establecer el nivel de medición de algo. Por ejemplo, digamos que estamos estudiando las subvenciones que el gobierno central da a distintos municipios de una región en relación al número de personas paradas existentes. Podríamos ordenar estos datos y decir que el municipio A recibió 5 subvenciones, y que el municipio B recibió 3 (etcétera). Podríamos tener la obvia tentación de pensar que esta variable (subvenciones recibidas) es ordinal, pero estudiando un poco más el caso vemos que en realidad las subvenciones se otorgaron vía favores políticos a caciques afines al gobierno central, por lo que algunos municipios con menos gente parada recibió más subvenciones de lo debido. En este hipotético caso (o no tan hipotético) tendríamos que plantearnos seriamente si podemos tratar en nuestro análisis estadístico dicha variable de forma ordinal. Ciertamente podríamos, pero tal vez llegaríamos a resultados poco reales si aplicamos alguna técnica estadística más avanzada.

Explicando con números II

En el primer texto de esta serie ya vimos que saber de números ayuda a organizar la revolución social, como también ayuda a contrarrestar el control social que podamos padecer en nuestro entorno. Saber cómo interpretar cifras y datos es de vital importancia. El poder, con su discurso tecnocientífico al servicio de la producción capitalista, nos bombardea constantemente con tablas, cifras, y datos sobre tal o cual cosa. Si no sabemos cómo manejar estos números seremos vulnerables a cualquier tipo de manipulación y control. Arrebatar la ciencia al poder es fundamental para avanzar en nuestro camino revolucionario, pues la producción científica será, sin duda, útil para la organización de la sociedad libertaria del futuro. La ciencia, y su discurso, no es neutral ni mucho menos; a menudo sigue intereses que pueden ser personales, institucionales, económicos, de clase, etcétera. Identificar que los números "pueden mentir" en favor de un poder u otro es un primer paso muy necesario. Saber que los datos cuantitativos pueden ponerse a trabajar para la revolución social es, asimismo, un segundo paso tan lógico como necesario.

En este segundo texto empezaremos viendo lo más básico, y se introducirán las medidas de tendencia central, así como la idea de que los datos pueden estar medidos en distintos niveles (aunque hablaremos de niveles de medición en el próximo artículo). Si no eres una persona "de números" lo primero que has de hacer es sacudirte el miedo que puedas tener: los números forman un lenguaje (el matemático) que se puede aprender con tanta facilidad como cualquier otro idioma. Si por el contrario el uso de cifras y datos forma parte de tu vida diaria, tal vez quieras leer este artículo simplemente para revisar lo que ya sabes con seguridad. Para las primeras personas he de decir que este artículo no presentará ningún tipo de álgebra, de hecho ningún artículo en esta seria explicará los conceptos claves de forma algebraica. Así que no os preocupéis. Cuando considere que una explicación más compleja es necesaria, la adjuntaré en un anexo al final de cada artículo (pero éste no es el caso). Usaré un lenguaje sencillo y cotidiano para hablar de los conceptos estadísticos que abren la serie "Explicando con números", como también usaré ejemplos de fácil comprensión (nada abstracto o surrealista). Pensemos en el análisis cuantitativo como algo que tiene que ver con todo lo que nos rodea a diario: precios, salarios, duración de jornadas laborales, número de personas que viven en nuestro barrio, etcétera. Lo que nos rodea puede ser interpretado numéricamente, por lo que no pienses que los números son algo abstracto cosa de "mentes brillantes." ¡Pongamos a trabajar los números por la revolución social!

Describir es lo primero

Describir un fenómeno social es siempre lo primero que tenemos que hacer al empezar un análisis de cualquier tipo. ¿Qué estamos analizando? ¿Dónde tiene lugar? ¿Cómo lo hace? ¿Quiénes, o qué elementos, participan en el fenómeno? Cuando hablamos de un fenómeno representado con números la descripción de dicho fenómeno implicará hablar de un conjunto de cifras, las cuales pueden ser unas pocas (por ejemplo el número de personas que están con nosotres en el autobús), o muchas más (todas las personas que viven en una gran ciudad). Saber describir muchas cifras al mismo tiempo es pues vital para comprender qué sucede (y cómo lo hace). En otras palabras, lo que queremos obtener al principio es una "fotografía general" de aquello que estamos estudiando, un "resumen" informativo que nos oriente en análisis más complejos. Para esto, en estadística usamos lo que llamamos medidas de tendencia central. Explicado de la manera más sencilla posible, las medidas de tendencia central sirven para señalar el "centro" de un conjunto de números. No obstante, los datos cuantitativos del mundo social no están siempre presentes "al mismo nivel." Tomemos por ejemplo los siguientes enunciados (cifras inventadas):

  • El futbolista promedio de la Liga BBVA gana 2 millones de euros al año.
  • La mayoría de futbolistas de la Liga BBVA gana menos de 1,5 millones de euros al año.
  • El salario promedio de los futbolistas de la Liga BBVA es de 4 millones de euros al año.

Resalto de nuevo que las cifras de estos tres enunciados son inventadas, pero para nuestro fin pensemos que son reales. Así pues, los tres enunciados son ciertos, describen un fenómeno (el salario de los futbolistas profesionales de la Liga BBVA), y lo hacen hablando del conjunto de cifras (salarios) de una forma que las resume en un único número. Sin embargo, cada enunciado se expresa de forma distinta a pesar de estar describiendo el mismo fenómeno, y es los enunciados no están considerando los datos de la misma manera. Esto es lo que llamamos en estadística niveles de medición (por ahora no te preocupes de estos niveles, ya se explicarán con detalle en el próximo artículo). De esta forma, el primer enunciado describe al futbolista "común" o "típico" y su medida de tendencia central es la moda. El segundo describe el fenómeno en términos de rango, es decir, ordena todos los salarios de la Liga BBVA de menor a mayor y señala el punto medio o mediana. El tercero es el más común y el que los medios de comunicación suelen usar: la media o promedio, es decir, la suma de todos los salarios de la Liga BBVA dividida por el número total de personas (asumiendo que un futbolista solamente tiene un salario). Es de vital importancia saber distinguir estos niveles, puesto que describen la realidad de manera distinta. No distinguir niveles puede hacer que seamos manipulades por los medios de comunicación burgueses. Por ejemplo, imaginemos el siguiente enunciado de la prensa burguesa (cifras inventadas):

  • ¡España va bien! El salario medio de los españoles aumentó en un 8% desde el último año, alcanzando los 30.000 euros anuales.

Ahora sabemos que este enunciado habla de un promedio, que es aquí la suma de todos los salarios de todas las personas del Estado español, dividida por el número total de personas. ¡Estupendo, el salario medio no solamente aumentó en un 8%, sino que está en los 30.000 euros anuales, nada mal! ¿Pero qué nos pueden estar ocultando? Consideremos el siguiente enunciado sobre la misma población (cifras inventadas):

  • La mayoría de españoles gana menos de 800 euros al mes.

Unos cálculos rápidos: , y por otro lado . Dado que un enunciado habla de salario anual y el otro habla de salario mensual, del primer cálculo entendemos que el salario medio mensual, según el primer enunciado de la prensa, es de 2.500 euros. Sin embargo, el segundo enunciado nos dice que la mayoría de personas gana menos de 800 euros al mes, o lo que viene a ser 9.600 euros al año teniendo en cuenta que una persona gana esos 800 euros "centrales" (recordad que a esta medida se la denomina "mediana"). Lo que el primer enunciado oculta, y muy a menudo la manipuladora prensa lo hace, es el rango de los salarios en el Estado español. Un salario anual medio de 30.000 euros no está nada mal, pero esta cifra al ser el promedio de los salarios se ve muy afectada por aquellos casos en ambos extremos de la distribución, es decir, por los salarios más bajos y los salarios más altos. El rango, pues, es el recorrido entre el salario más bajo y el salario más alto. Si este rango es muy grande entonces suceden cosas como ésta: la media de por sí no describirá muy bien aquello que estamos analizando. Volviendo a nuestro ejemplo: la cifra de 30.000 euros anuales, sin dejar de ser verdadera, no representa completamente la realidad de los salarios en el Estado español (y de ahí que pueda ser usada para manipular a la gente y hacer creer, por ejemplo, que las políticas económicas del gobierno de turno están siendo eficaces). Cuando complementamos a esos 30.000 euros anuales con la mediana, es decir, con esos 800 euros mensuales, vemos que las cosas cambian, y mucho. El segundo enunciado nos dice que la mayoría de salarios en el Estado español son más bien bajos (menos de 800 euros al mes), y si juntamos el primer y segundo enunciado concluimos que en el Estado español debe haber gente que gana poquísimo dinero al mes, y gente que gana muchísimo dinero (pero que muchísimo) al mes. Además, el primer enunciado nos dice que el salario  medio aumentó en un 8%, lo que ahora sabemos viene a decir que el rango entre el salario más bajo y el salario más alto aumentó, ¡bien por la burguesía!

Resumen

Si hemos entendido hasta aquí hemos dado un gran primer paso. No hace falta presentar nada más por hoy. En este artículo hemos visto que para describir un conjunto de cifras usamos las medidas de tendencia central. Pero más importante, hemos visto que los datos pueden estar medidos y expresados en distintos niveles de medición. También hemos visto que las medidas de tendencia central pueden reflejar la realidad de lo que estamos estudiando de maneras un tanto "sesgadas." Por ejemplo, la media aritmética se ve influenciada en gran medida por los casos extremos de la distribución que estamos estudiando.  Por otra parte, espero que este primer artículo te haya hecho ver que se puede hablar de números sin necesidad de jerga técnica (que solamente sirve para preservar el conocimiento científico entre un grupo elitista de selectas personas), ni necesidad de complejas fórmulas matemáticas. La realidad social se puede analizar de manera sencilla, y esto está al alcance de todas las personas dispuestas a perder el "miedo a los números" que nos inculca la sociedad. En el próximo artículo veremos qué son esos "niveles de medición" de manera más detallada, así como aprenderemos a calcular las distintas medidas de tendencia central.

Pongamos la ciencia a trabajar por la revolución social. Quitemos a la burguesía la producción de conocimiento científico. ¡Muerte al Estado y su ciencia!

Explicando con números I

Cualquier historia está plagada de manipulaciones, mentiras, y despropósitos. La historia de la estadística no es una excepción. Si decido empezar esta serie de artículos con una somera introducción a la historia de la estadística es porque la manera en la que se cuentan las cosas tiene, normalmente, un gran impacto en la vida real de aquello que se cuenta. De esta manera, hoy por hoy existe una concepción generalizada de la estadística como algo negativo, manipulador, en manos del poder y de los estados-nación para manipular a las poblaciones y contar las cosas a medias. Pero la estadística ni estuvo siempre en manos del poder, ni su avance estuvo originalmente motivado por el control social. Entender el funcionamiento de grandes dinámicas mediante expresiones generalizables es de gran utilidad para la revolución social. La estadística ayuda a entender fenómenos humanos que de otra forma se nos escaparían, como también ayuda a proyectar y testar hipótesis. Con "Explicando con números" me gustaría presentar los fundamentos más básicos del análisis cuantitativo de la sociedad, para mostrar así que los números pueden servir para apuntar hacia las injusticias, señalarlas, identificarlas, y entenderlas mejor. Los números son, en definitiva, una herramienta (convertida en arma) más para derrocar al capital y a la autoridad.

1. Números: liberación o control

No se puede negar que el capitalismo del siglo XXI se apoya, en enorme medida, en el uso de números y en la cuantificación de dinámicas y elementos varios. Por ejemplo, la administación neoliberal de un Estado-nación se basa en la proyección numérica de escenarios hipotéticos en los que se analizan posibles riesgos, posibles beneficios, posibles catástrofes, etcétera. Cada "posible" es a su vez cuantificable, por ejemplo asignando a cada evento una probabilidad estadística de manera condicional. A menudo, la estadística también se ha usado para justificar medidas neoliberales, precisamente porque el uso de números para explicar decisiones humanas aporta un "extra" de objetividad y neutralidad científica. Si las cosas salen bien se alaba al "Dios de la estadística." Si las cosas salen mal se echa la culpa bien a las personas que hicieron los cálculos, o a la complejidad del mundo social (argumentos recurrentes en este último caso son: "ciertas variables no fueron incluidas en el modelo estadístico" o "es imposible representar todas las dinámicas humanas en un único sistema de ecuaciones"). La estadística a menudo se usa en la prensa y televisión (y normalmente de forma errónea) para presentar tal o cual avance del gobierno en materia distributiva, y por una y otra cosa al final la gente termina pensando que el uso de números tiene que ver más con el control social y la administración del aparato estatal que con otra cosa.

Razón no les falta a aquellas personas que identifican la estadística con la administración institucional del control social, pero éste no es el único uso posible de la estadística. La estadística tiene una esencia que, inherentemente, se podría decir que es revolucionaria. La estadística necesita, ante todo, proporcionalidad (es decir, medidas comparables). Cuando hacemos un análisis estadístico de la sociedad del Estado español, por ejemplo, tratamos igual y comparamos a la persona rica y a la persona pobre, lo que nos permite decir qué tan rica es una persona en respecto con otras (o al contrario, qué tan pobre es un sector de la población, por ejemplo les inmigrantes, con respecto a otro, les autóctones). Para que se vea esto que escribo en perspectiva histórica: en el siglo XIX el francés Pierre Guillaume Frédéric le Play solamente podía analizar estadísticamente a la clase trabajadora, porque era inconcecible en aquella Francia mezclar en el mismo estudio a la burguesía y a las personas "inferiores." De la misma manera, en el siglo XX no siempre se estudió a hombres y mujeres, dado que las últimas no siempre pudieron votar, por lo que eran frecuentemente excluidas del análisis socio-político. Así pues, a medida que la sociedad avanza en materia de derechos y libertades, también lo hace la estadística, la cual siempre está preparada para plantear nuevas preguntas. No obstante, la estadística también tiene el potencial de gatillar esos cambios sociales mediante la identificación de problemas e injusticias, por lo que la estadística ha venido cambiando con el transcurso de las sociedades, a la vez que ha ido influyendo dicho transcurso.

El uso de la estadística para estudiar fenómenos sociales se consolidó en el siglo XX, pero ya en el primer cuarto de siglo XIX los números se empezaron a usar para analizar los censos de población y los registros civiles. Lo que facilitó el uso de la estadística en el análisis de la sociedad fue la idea de que éstas pueden ser entendidas de una manera macro-social, global, más allá del comportamiento individual de las personas de dicha sociedad. Esto lleva a dos conclusiones: una es que si las sociedades son como son más allá de lo que hagan individualmente las persona, entonces, nada se puede cambiar. Pero ante esta óptica conservadora, también se puede plantear lo opuesto: si dinámicas macro-sociales juegan algún papel en la vida humana, entonces, lo que hay que cambiar es el sistema en sí (sustitúyase aquí sistema por sociedad, comunidad, capitalismo, etcétera). Precisamente esta segunda idea que proporciona la estadística es la que confiere a la disciplina un potencial revolucionario.

2. Uso histórico y emancipador de la estadística

La estadística empezó a usar datos de la población, de manera sistemática, en la primera mitad del siglo XIX. Karl Marx y Friedrich Engels usaban en sus escritos tablas y números para describir el capitalismo. En Bélgica, Adolphe Quetelet empezó a usar por entonces datos estadísticos para estudiar la sociedad de la manera sistemática: datos del Registro Civil, datos del Censo, datos judiciales... Más tarde, Émile Durkheim haría lo mismo pero de una forma todavía más sistemática y con mayores implicaciones teóricas. Hacia los últimos años del siglo XIX la estadística ya era una herramienta habitual del análisis social, lo que sirvió tanto a personas revolucionarias para describir las injusticias del capitalismo (se realizaron numerosos estudios estadísticos sobre las condiciones de vida de la clase trabajadora), así como a personas conservadoras (avance del control social, avance de las ideas de la eugenesia, etcétera). No obstante, había en Europa un espíritu innovador que relacionaba el estudio social con la estadística, y así multitud de sindicatos a lo largo y ancho de la geografía europea hicieron uso de datos estadísticos para denunciar las barbaridades del capitalismo. Esto produjo una deriva de la estadística social hacia el mercado laboral, por lo que por un considerable tiempo la estadística social se dedicó a preguntar y responder preguntas sobre empleo, paro, salarios, inserción laboral, etcétera. A finales de siglo XIX surgieron las primeras oficinas estatales para el estudio estadístico del mercado laboral, normalmente adjuntas a ministerios de trabajo (los cuales se consideraron a principios del siglo XX).

Por aquel entonces, la concepción revolucionaria de la estadística social era innegable. Tanto personas anarquistas, como personas marxistas, hablaban de la estadística social como una herramienta para organizar y planificar la sociedad comunista del futuro. Los números eran concebidos como algo útil para mejorar la producción justa y solidaria de bienes y servicios. Además, como ya se ha mencionado antes, el uso de números facilita la crítica social, lo que era fundamental para señalar las injusticias del capitalismo (injusticias que se traducían en salarios muy dispares, tasas de mortalidad más elevadas entre las clases populares, etcétera y etcétera). A día de hoy ninguna de estas dos ideas parecen tener peso: el siglo XX adjudicó la estadística al control social, al poder, a los Estado-nación, y a la burguesía opresora. De forma más o menos consciente, se limitó el entendimiento de la estadística a su origen etimológico (estudio científico del Estado), haciendo así olvidar a la gente que los números tienen un gran potencial revolucionario. El olvido es parte del exterminio, y parece ser que hemos olvidado. Ahora toca recordar.

3. De los números... ¿a la revolución social? Cómo se organizará esta serie de artículos

Ya he explicado en qué pueden ser los números útiles: señalar injusticias, describir la desigualdad, cuantificar los problemas para compararlos, proyectar patrones y dinámicas hacia el futuro para intentar predecir en términos de probabilidad, organizar de una mejor manera la sociedad del presente... Las posibilidades son muchas siempre y cuando se usen los números de una manera correcta, porque los mismos números pueden servir para controlar a la sociedad, justificar la desigualdad existente, apoyar planes capitalistas de inversión en las colonias del capitalismo, etcétera. Los números, pues, pueden ser revolucionarios o reaccionarios, lo que nos lleva al viejo debate de si la estadística (los números) es realmente objetiva o no. En este texto no pretendo debatir sobre la objetividad y neutralidad de la ciencia (sea social, experimental, o natural), pero ya diré que no creo que lo sea (ninguna de las tres, desde la sociología hasta la física, no creo que haya proceder científico neutral y objetivo). No obstante, sí que existen hechos sociales que son externos a las personas. Por ejemplo: piense lo que piense hoy morirá une niñe de hambre en el continente africano. O piense lo que piense una mujer, al menos, será violada en alguna parte del mundo esta noche. La estadística no es neutral, y tampoco tenemos que querer que así lo sea. Los números son útiles para la revolución precisamente porque nos permiten estudiar esos hechos sociales que queremos denunciar y cambiar.

La serie "Explicando con números" presentará las técnicas de análisis estadístico más frecuentes, empezando por lo básico y avanzando hacia técnicas de análisis más complejas. Con ello no quiero decir que escribiré un libro de texto sobre análisis cuantitativo de la sociedad. Simplemente presentaré ideas y conceptos básicos, y lo intentaré hacer de una manera sencilla para que pueden ser aplicados por cualquier persona a la hora de analizar cualquier fenómeno social. Éste es un proyecto ambicioso al cual pretendo dedicar tiempo y cariño dado que creo que los números (bien usados) pueden ayudarnos a traer al mundo la revolución social. También, este proyecto tiene un gran carácter personal porque me gustaría transmitir las ideas y conocimientos que motivan a muchas personas a usar los números para erradicar la explotación capitalista. Muy a menudo se concibe todo esto como algo fuera del alcance de la "gente normal", como si fuera algo solamente para el uso exclusivo de personas académicas y científicas. Esto hay que cambiarlo. La adquisición de conocimiento básico sobre estadística no solamente ayudará a las personas a pensar de manera más crítica sobre las cosas que suceden en el mundo, sino que además tiene la ventaja de hacer a las personas inmunes al control social que a menudo vemos en prensa y televisión. Saber leer e interpretar una tabla estadística es fundamental tanto para hacer la revolución, como para defenderse de la reacción. O así pienso yo. Quiero hacer las cosas bien con esta serie de artículos, así que no me he propuesto ningún tipo de periodicidad en la entrega de artículos. Saldrán cuando estén listos y me satisfaga el resultado. Espero tener vuestra paciencia.

Pongamos la ciencia a trabajar por la revolución social. Quitemos a la burguesía la producción de conocimiento científico. ¡Muerte al Estado y su ciencia!