La importancia de como mirar los datos (I): Introducción
Published:
Vivimos en tiempos extraordinarios, capaces de crear inteligencias artificiales que simulan creatividad y crean piezas de arte [1][2], que automatizan tareas que hasta ahora parecían impensables y que mantienen conversaciones como si fueran personas a través de chats.
Pero a su vez, ciertos empleos desaparecen o se transforman rápidamente, y ejércitos de bots [3][4] se dedican a contaminar las redes sociales con mentiras, medias verdades y mensajes propagandísticos de todo tipo. Ante este tipo de cambios suele haber dos caricaturas muy poderosas de cómo la gente los afronta:
- Los optimistas: aquellos que sólo ven cosas positivas en estos cambios, incluso de forma ciega y acrítica. “¡Es el futuro, la modernidad! ¡Todos seremos más felices y comeremos perdices!”.
- Los agoreros: todo es para mal y cuanto antes lo paremos mejor. Nuestra sociedad se terminará y nos autocondenaremos.
Como toda caricatura, esta representación no es del todo cierta, o como mínimo, es dificil encontrar gente en estos extremos de forma coherente, pero nos ayuda a identificar partes de nosotros mismos o de nuestros pensamientos. Dentro de los cambios positivos y negativos que nos traigan las inteligencias artificiales, lo que sí es seguro es que cambiarán las formas de sobrevivir en este nuevo mundo y nos tocará adaptarnos.
Una de los primeros retos de adaptación que nos tocará afrontar es el distinguir entre la verdad y la mentira. Esta tarea siempre ha sido uno de los grandes retos que hemos tenido como personas. En ciertas circunstancias o épocas fue hasta una razón de vida o muerte. De comer o no comer. Hoy en día, con un estado protegiéndonos, ya no es una cuestión de vida o muerte (como mínimo de manera individual) pero tampoco es irrelevante.
La era de los datos
Antes de que se pusiera de moda el tener en la boca para todo la “Inteligencia Articial”, o el “Machine Learning” (Aprendizaje Automático en la versión española) o incluso el “Deep Learning” (Aprendizaje Profundo) se nos repitió hasta la saciedad otro buzzword: el “Big Data”. El “Big data” hace referencia al procesado y almacenamiento de cantidades ingentes de información. Y si hay algo que podemos asegurar que está cambiando en el mundo es cómo sensorizamos, procesamos y almacenamos información.
Las implicaciones de este hecho para la sociedad, desde los tipos de negocios que se crean o cómo afecta a nuestra privacidad individual, los tenemos todos presentes. Este proceso lo hemos estado viviendo progresivamente durante las últimas décadas, y con especial implicación social en esta última.
Este posicionamiento de los datos en el centro de la vida pública, con condicionamientos sociales importantes o incluso estando en el centro del debate político, fue para los optimistas una gran noticia, ¡por fin llegaría el objetivismo! Las verdades quedarían expuestas directamente sin necesidad de una discusión o debate social. Incluso el proceso de toma de decisiones podría ser delegado a una máquina o algoritmo que tomara la mejor decisión.
Estas afirmaciones están realizadas bajo la suposición de que así es cómo funciona la ciencia, que una vez la verdad queda expuesta, nadie puede resistirse ni negarse. Y esto está lejos de la verdad.
Los datos y la ciencia, una lección de humildad
Muchas veces cuando la gente piensa en la ciencia piensa en peculiares hombres mayores con batas y tras ellos pizarras llenas de extrañas fórmulas inentendibles. Ellos dictan lo que es verdad y lo que no en sus ámbitos. Y a veces llegan a maravillosos y revolucionarios descubrimientos que lo cambian todo. Sólo los compañeros de profesión celosos y los malos científicos entonces se atreven a discutirles…
La verdad está lejos de esta visión. La ciencia es un trabajo colectivo. Todo comienza con un intenso trabajo de grupo, desde los jefes de equipo que indican el camino hasta los doctorantes que desarrollan sus primeros pasos profesionales en el mundo de la investigación y ejecutan las labores más tediosas.
El trabajo de su investigación se basa en validar hipótesis. Para ello se buscan datos (medidas sobre el sistema que queremos entender) que de forma no ambigua puedan decantarse hacia alguno de los lados (confirmar o desmentir la hipótesis de trabajo).
Dependiendo del problema los datos son buscados y obtenidos de diferentes maneras. A la maneras de conseguir los datos se llaman experimentos y pueden ser considerados de 3 tipos:
- in vivo: no se declara ninguna restricción en el diseño del experimento. El científico actúa simplemente como mero expectador sobre lo que está pasando en el sistema.
- in vitro: la forma más clásica y formal de obtener estos datos se realiza mediante un estricto diseño del experimento, aislando el sistema del cual queremos extraer medidas. Nos asegura que todas las posibles influencias en el resultado de las medidas estén bajo control.
- in silico: habiendo modelado el sistema sobre el que queremos examinar, ahora necesitamos más datos de éste. El experimento se convierte en un programa de ordenador que simula todo el sistema sobre el que queremos experimentar y nos devuelve las medidas que queríamos tomar. Asegura coherencia con anteriores resultados y medidas. Todas las medidas hechas puede que no sean medidas exactas pero son coherentes con otras que ya habíamos conseguido anteriormente.
Después de todo ello se somete a un proceso de evaluación y debate público. Las investigaciones se explican en un artículo con una extensa descripción de todo el proceso de la investigación que se envía a revistas científicas. En este primer proceso la revista envía el artículo a otros investigadores relacionados con el tema de investigación determinado y piden mejoras sobre el artículo si lo consideran oportuno.
Es aquí cuando mucha gente piensa que se ha acabado el camino. La prensa anuncia que se publicó tal investigación en la prestigiosa revista científica y para el gran público aquí termina todo.
Aquí es cuando en realidad comienza todo. El debate entre la comunidad científica. Otros grupos de investigación tratarán de replicar esa investigación o evaluar la misma hipótesis de diferentes formas y obtener resultados semejantes o conclusiones similares.
La verdad vendrá de los datos, pero siempre a traves de un consenso logrado desde un debate público y transparente.
El rango de validez de la verdad
Como ha quedado descrito, el proceso científico se basa en extraer conclusiones de unos datos a través de un debate público y transparente. Gran parte de este debate se basa en el rango de validez de dichas conclusiones.
La gran mayoría de debates en ciencia se asumen bajo la principal premisa que no se miente en las medidas que se han hecho. Tales debates se basan principalmente en:
- Si tiene sentido realizar esas medidas para valorar la hipótesis que queremos comprobar.
- Si el diseño del experimento (especialmente en el caso de experimentos in vitro e in silico) es adecuado para la hipótesis que queremos comprobar.
- Hasta que límite es generalizable los datos obtenidos de las medidas hechas. Lo que está claro es que los datos describen el experimento que está midiendo, ¿pero hasta qué punto estos datos también describen otros expermientos con similares restricciones? ¿Hasta qué punto estas medidas son válidas a casos similares pero sin tener las mismas restricciones?
Este último punto y sus preguntas es el punto más interesante en el debate científico. Y llegar a conclusiones completemente generalizables o “universales” es el gran premio de la ciencia. Al final, lo importante de una afirmación científica es el rango de validez que tiene. La teoría de la Relatividad General tiene un rango de validez que está limitado a grandes escalas, pero deja de funcionar en pequeñas, y no por eso deja de tener una importancia vital en la ciencia y como herramienta para entender el mundo.
Esto sí que es generalizable para cualquier medida que tomemos de la realidad. No podemos dar por hecho que una medida habla más allá que lo que ha medido en el momento que ha medido y con las limitaciones de medida que ha tenido.
¿Qué pasa cuando se obvia el rango de validez?
En muchas discusiones del día a día o de política, de toda la vida hay quienes discuten pretendiendo generalizar datos anécdoticos al nivel de regla general. Desde el mundo del marketing a la política siempre se han aprovechado de ello para lanzar mensajes no del todo reales o directamente engañosos.
Estos hechos nos llevan a interminables conversaciones de besugos políticos en el que todo el mundo dice medias verdades pero debido a la falta de intereses comunes de alcanzar la verdad o de la dificultad de esta búsqueda todo queda en un aburrido bucle de magnánimes generalizaciones.
Esto ya generó preocupación en tiempos lejanos: desde la frase popular que describe los tres tipos de mentiras: “Mentiras, malditas mentiras y estadísticas” [5], pasando por el famoso libro “Cómo mentir con estadísticas” [6] del año 1954, ya lanzaban esta preocupación al debate público.
Hoy en día, con redes sociales y el exceso de información no correctamente procesada hace que nos perdamos entre la abundancia. Es dificil diferenciar cuál es la información correcta y cuál no. Quién respeta el rango de generalización de los datos y quién no. Y es aquí donde está el peligro.
¿Cómo evitar ser confundido o engañado?
Como ha quedado claro en todo este artículo, hay que ir con cautela a la hora de extraer conclusiones de ciertos datos. Por supuesto también hay que ir con mucha cautela con aquellas informaciones que generalizan rápidamente ciertos datos a grandes conclusiones.
Aquí compilo algunas de las recomendaciones para prevenir estos comportamientos. Todas son de sentido común:
- Una públicación científica no quiere decir que esté aceptada por la comunidad científica en su global, si no que ha pasado una revisión para poder ser debatida públicamente.
- La prensa no es la comunidad científica, no hay un proceso de revisión muchas veces. Malentendidos, malas intenciones, malas interpretaciones o errores suelen pasar más a menudo de lo que nos pensamos en una redacción de cualquier medio de prensa.
- Las redes sociales son un medio muy interesante para tener debates de forma transparente y aprender nuevas cosas, pero no todos los comentarios tienen el mismo valor. Hay que procurar no leer sólo algún comentario si no las respuestas que salen de él y las conversaciones que se generan a partir de ahí.
- Para valorar apropiadamente si los datos han sido debidamente generalizados a la hora de sacar conclusiones se necesita saber muy bien cómo funcionó el proceso de conseguir dichos datos.
- No utilices el destornillador cuando necesitas una llave inglesa. Ciertas medidas sirven para sacar ciertas conclusiones y no otras. Respeta los rangos de validez de cada uno de ellos cuando a ti te corresponda.
Y en general, simplemente sé crítico. No te quedes con las primeras conclusiones, por mucho que a ti te gusten.
En resumen,
Más datos no tiene porque ser mejor. Mirar los datos y dejarse llevar por ellos no tiene porque ser mejor. Al final, en esta era, se nos dice lo importante que es mirar los datos cuando el verdadero mensaje debería ser sobre la importancia de cómo mirarlos.
Referencias
- [1] Así es como Google te escribe un poema a partir de una sola palabra y un ‘selfie’
- [2] La Inteligencia Artificial reinventa la pintura
- [3] “Barçagate”: Así actúan los ejércitos de bots maliciosos
- [4] Twitter y Facebook acusan al PP de haber estado detrás de varias cuentas falsas y bots en las plataformas
- [5] Mentiras, malditas mentiras y estadísticas
- [6] Cómo mentir con estadísticas