sesgos en data sets

Sesgos en data sets

 

Hoy hablamos (otra vez) de sesgos. Pero no de sesgos de algoritmos, sino de los que se esconden a plena luz del día en los propios data sets empleados para entrenar modelos de inteligencia artificial.

 

No hay algoritmos ni modelos neutrales: tampoco data sets neutrales

Simplemente no existen.

Entendedme bien: no digo que esto sea voluntario ni consciente, digo que simplemente sucede porque así son las cosas.

 

Tres fases

Se puede hablar de una comunicación de sesgos que fluye desde el cerebro humano a los data sets y de estos a los modelos de inteligencia artificial que se entrenan con ellos.

Este proceso de transferencia de sesgos se puede desglosar en tres etapas principales:

1.- Los sesgos de nuestros cerebros “contaminan” las bases de datos que generamos en nuestra actividad…

2.- Estas a su vez, contaminan los algoritmos y/o modelos de inteligencia artificial al entrenarse con ellas…

3.- Y regurgitan los mismos sesgos (y algunos nuevos) que son asumidos por nuestros poderosos pero (¡ay!) imperfectos cerebros.

Pero vayamos por partes:

Ya hemos hablado por aquí de los principales sesgos del cerebro humano (o al menos los que a mí me resultan más interesantes).

Este post sigue la serie dedicada a la IA que empezó aquí comentando la obra de Eric Topol -Deep Medicine- y la de Daniel Kahneman (los problemas de nuestros sesgos humanos y cómo pueden ser superados por la inteligencia artificial), siguió aquí comentando la lentitud y dificultades -por razones muy humanas) de adopción de tecnologías disruptivas y la ejem, predicción de centauros de Cory Doctorow (humano cabalgando IAs o quizá, lo contrario).

También vimos la parte que no te suelen contar sobre la extracción de inferencias, o lo que es lo mismo, de dónde salen las predicciones algorítmicas.

Más adelante practicamos una autopsia a una decisión automatizada para descomponerla en sus partes (data set, predicción, criterio y acción) para ver las consecuencias económicas de refundir (automatizar) varias de esas partes, o adjudicárselas a personas distintas de las que hoy las controlan.

Y hoy revisaremos los sesgos más difíciles de detectar y (costosos de arreglar) los que afectan, no al modelo, sino al propio data set con la que se ha entrenado el modelo de Inteligencia Artificial.

Si te interesa la confluencia entre la Inteligencia Artificial y la normativa de protección de datos, es posible que te interese nuestra formación sobre la materia: «Aplicando el RGPD a la IA en la práctica» y «Entendiendo la AI Act».

 

 

Primera.- Del cerebro a las bases de datos

Los sesgos humanos se integran en los data sets a través de varias vías.

Obviamente, las decisiones sobre qué datos recolectar (y qué no), cómo clasificar y etiquetar estos datos, y qué datos se consideran importantes o irrelevantes.

Ninguna de estas decisiones es neutral.

Hay otras menos claras.

 

sesgos en data sets

Jim Crow versus Robert Moses

Ejemplo: los negros no van a la playa

Los registros dirían que, en New York, durante buena parte del siglo XX, sólo los blancos iban a la playa de Long Island. Y es cierto.

Pero era porque los puentes sobre la autopista se construyeron intencionalmente “bajos” y sólo dejaban pasar “coches” pero no “autobuses”, que era el medio de transporte utilizado por la población negra, de condición económica menos pudiente.

La decisión en este caso fue de Robert Moses, cerebro gris de la urbanización de NYC. Racista confeso. La decisión fue completamente ajena a la formación del data set.

Pero decisiva, claro, en el resultado.

 

sesgos en data sets

La Shirley card original

 

Ejemplo: sólo los feos salen mal en las fotos

¿Te puedes imaginar algo más objetivo que una fotografía (no manipulada, claro)?

Los más jóvenes no vivieron los tiempos en los que la gente llevaba pesadas cámaras analógicas que disparaban 24 o 36 fotos en carretes de celuloide. Y las fotos no se veían al hacerlas como ahora: tenías que esperar hasta terminar el carrete, lo llevabas a revelar en papel fotográfico y tardaban días u horas en dártelas.

Those were the days.

Pues bien, la composición de esos carretes fotosensibles estaba “sesgada”.

La película se fabricaba para que captara más fielmente (porque había que elegir) las pieles blancas.

«La película utilizada en cámaras analógicas se exponía utilizando una composición química especial para resaltar los colores deseados.

Para calibrar las cámaras y asegurarse de que esos colores deseados estuvieran bien representados, se creó un estándar. Este estándar se conoció como la “Shirley card”, que originalmente era una imagen de una mujer blanca utilizada para establecer la composición ideal y los ajustes de exposición.

La consecuencia de calibrar las cámaras de película utilizando a una mujer de piel clara fue que las técnicas desarrolladas no funcionaban igual de bien para personas con piel más oscura.”

Pero llegó un momento en que la gente se dio cuenta de que los negros no salían bien en las fotos y cambiaron la fórmula… ¿verdad? ¿No?

¿Y entonces cómo fue la cosa?

“De hecho, no fue hasta que las empresas de muebles y de chocolate se quejaron de que los ricos tonos marrones de sus productos no estaban siendo bien representados que Kodak introdujo un nuevo producto que capturaba mejor una gama de tonos marrones y sepia oscuro.”

(Fragmento de Unmasking AI: “My Mission to Protect What Is Human in a World of Machines” de la Dra. Joy Buolamwini.)

sesgos en data sets

La Shirley card revisada

La transición de las cámaras de celuloide a las digitales no ayudó a corregir estos sesgos. Las cámaras digitales y las tecnologías de visión artificial heredaron esos ajustes, perpetuando un mejor resultado para los tonos de piel más claros.

Este tema me ha resultado apasionante, pero turra limit hits: si a alguien le interesa seguir tirando del hilo, que busque “Fitzpatrick skin phototype scale”.

O lea «Unmasking AI», porque unos cien sesgos racistas podrían atravesar el ámbito del reconocimiento facial saltando de data set en data set de entre los empleados para el entrenamiento de sus modelos (el de Imdb de actores, el de políticos publicados en webs gubernamentales, los de deportistas publicados en webs de clubes deportivos… un no parar).

 

 

Segunda fase: De los data sets a los modelos de inteligencia artificial

Cuando los modelos de aprendizaje automático son entrenados con data sets que contienen sesgos, estos modelos tienden a perpetuar o incluso amplificar esos sesgos.

Recordemos que los algoritmos de aprendizaje automático aprenden y hacen predicciones basadas en los patrones que detectan en los datos de entrenamiento.

Predicen lo que harás tú, sólo que basándose en lo que han hecho en el pasado otras personas que consideran parecidas a ti (que comparten el mismo “perfil” que el tuyo).

Si esos datos no son representativos de la realidad o están sesgados, las decisiones que toma el modelo estarán condicionadas por esas deficiencias y sesgos.

 

Ejemplo divertido: ElevenLabs

La empresa de generación de voces sintéticas ElevenLabs entrenó sus modelos con audios extraídos de charlas públicas tipo TedTalks.

Como resultado, el modelo insertaba aplausos en los intervalos de silencia entre las frases generadas.

Normal.

 

Volvamos a los puentes a Long Island

Imaginad: Un modelo de IA entrenado para diseñar ayudas públicas a familias desfavorecidas en NYC, seguramente omitiría ayudas para que familias negras fueran a la playa porque… no van.

Seguramente “no les gusta”. O eso decían los datos mondos y lirondos.

 

Stanzi”

Otra anécdota real que sucedió durante las pruebas de uno de los primeros algoritmos de reconocimiento facial, el desarrollado por el Dr. Turk:

(El sistema de reconocimiento facial) «Funcionaba perfectamente hasta que el equipo de filmación (unos periodistas) sorprendió a Turk trayendo un perro labrador negro. El sistema identificó al perro como ‘Stanzi’, la única mujer en el experimento.

Repensando el asunto décadas después, Turk dijo que había ocurrido porque los investigadores habían establecido un criterio bajo para detectar un rostro y nunca lo habían probado con un animal en la sala.

Pero fue un momento revelador en la historia temprana de la visión por computadora. En los experimentos en Brown y luego en el MIT, el ‘rostro promedio’ mostrado al ordenador era casi siempre el de un hombre blanco. El programa de Turk intentaba identificar a alguien por cuánto se desviaba del ‘rostro promedio’, así que los rostros de la mujer y el perro caían en el rango de ‘desviación mayor’.«

Fragmento de  “Your Face Belongs to Us: A Secretive Startup’s Quest to End Privacy as We Know It” (Kashmir Hill).

 

sesgos en data sets

Ejemplo: Proctoring

Las herramientas de proctoring (vigilancia del alumno a través de su propio ordenador para evitar fraudes en los exámenes, que se popularizaron durante el COVID) fueron una de las “soluciones obvias” para problemas urgentes que padecimos durante la pandemia.

Y claro, fueron denunciadas por múltiples colectivos: los más afectados por sus problemillas.

Uno de ellos, el de estudiantes negros: algunos sistemas tenían dificultades para reconocer sus caras y les obligaban a mantener focos de luz directamente sobre ellas… mientras hacían el examen.

Nice.

En España estos sistemas fueron apoyados (con base en, asómbrense, el ¡libre consentimiento del alumno!) por los de siempre, y  justísimamente rectificadas por dos veces (una y dos) por la AEPD, que sólo reconoció su proporcionalidad si no implicaban reconocimiento facial, ni se amparaban… ¡equilicuá! en el consentimiento.

 

Un par de conclusiones obvias

Sólo porque un estándar se adopte y se erija en la norma, no significa que deba aceptarse sin más, sin cuestionarlo.

Los sistemas de clasificación que se aplican al etiquetado de data sets en machine learning siempre heredan, retocan o expanden decisiones objetivas y subjetivas, observaciones e interpretaciones de la realidad de quienes los diseñan.

Estos sistemas de etiquetado configuran (y limitan) el mundo de posibilidades y experiencias para un modelo de aprendizaje automático, que ya venía limitado por los datos disponibles.

Un sistema de clasificación o etiquetado borra la existencia de los grupos excluidos de “los ojos” del modelo.

Insisto, los casos que más nos deben preocupar no son aquellos en los que los artífices han configurado descaradamente las clasificaciones a su antojo, sino los que respondan a configuraciones igualmente injustas, pero invisibles por estar “embebidas” en el tejido del sistema: ocultas a plena luz del día: porque son las más difíciles no ya de detectar, sino de reparar o mitigar.

Terminamos con un ejemplo que -espero- no olvidarán…

 

El benchmarking del NIST sobre sistemas de reconocimiento facial

Todos hemos visto esos entusiastas alegatos comerciales cuando te intentan vender un sistema de inteligencia artificial con una aplicación específica. Ejemplo: sistemas de reconocimiento facial: “¡98% de acierto!”, “99% de acierto!!”.

Pues bien, esas tasas de acierto varían y mucho dependiendo no sólo (i) del data set de entrenamiento sino también (ii) del público target sobre el que utilizarás el sistema.

O, de la misma forma, el “benchmark” contra el que pruebas y mides su eficacia.

El NIST en Estados Unidos testea, aprueba y publica los resultados de acierto de los sistemas de reconocimiento facial disponibles en el mercado.

En el libro citado anteriormente (“Unmasking AI”), la doctora Buolamwini revisó el data set que utilizaba el NIST para hacer estas pruebas y encontró que:

  • En 2016 los data sets utilizados “oficialmente” por el NIST estaban integrados sustancialmente por rostros de hombres (75% del total) y por personas blancas (79,6%).
  • Si considerábamos las dos variables a la vez (sexo y raza): sólo un 4,4% de las imágenes del data set correspondían a mujeres negras.
  • La consecuencia es obvia: un modelo que fallara en el reconocimiento de TODAS las mujeres negras del data set, aún podría obtener un 95,6% de acierto.

 

Tercera fase: del modelo al cerebro humano.

Esta fase ya la tratamos en profundidad, creo, cuando destripamos aquel fastuoso paper de Daniel Solove e Hideyuki Matusumi.

La parte que aquí interesa es la del “sesgo de automatización”: las razones que llevan a que al “supervisor humano” del modelo algorítmico le cueste horrores llevar la contraria a la predicción (o decisión automatizada) suministradas por el algoritmo o la IA.

Recuerden que la sentencia Schufa del TJUE asimila predicción y decisión automatizada aunque la predicción se emita en una sede y la decisión se adopte en otra, siempre que la decisión respete reiteradamente las predicciones emitidas aguas arriba.  

Recuerden asimismo que la versión más oscura (pero generalizada en nuestros días) del sesgo de automatización es la que da lugar a, en vez del virtuoso centauro -el algoritmo cabalgado por el humano-, al terrible “centauro inverso”.

sesgos en data sets

 

Conclusiones

Normalmente se da mucha importancia a los problemas de transparencia en el funcionamiento de los modelos de IA.

Y es lógico: una vez entra en juego el machine learning, sólo eres capaz de ver si el modelo funciona mejor o peor que en la anterior iteración, pero la mayor parte de las veces no se sabe exactamente por qué.

Es lo que se denomina el problema de la caja negra o «Black box».

Mucha menos atención se ha prestado a los problemas inherentes a los propios data sets de entrenamiento.

¿Por qué? Quizá porque este problema está estrechamente ligado a la naturaleza humana (no es estrictamente tecnológico) y es, por tanto, mucho más difícil y costoso de solucionar o mitigar.

La loca carrera actual por ingerir literalmente cualquier data set para el entrenamiento de los actuales modelos de IA ha agotado ya todos los recursos disponibles.

Ahora se están generando data sets sintéticos…

Alguien podría pensar que sería más lógico revisar, limpiar y depurar los data sets con los que actualmente contamos, antes de enchufarlos a esos modelos…. y así obtener unos cimientos más sólidos para todo lo que se edifique por encima. En vez de resultados cada vez más emputecidos.

Pero estas líneas de actuación son caras, poco populares, oscuras y no venden tanto como un nuevo modelo con no sé cuantos millones de parámetros.

 

Jorge García Herrero

Abogado y Delegado de protección de datos