IA generativa de imágenes vs RGPD (III): Mitos y preguntas frecuentes

 

IA generativa de imágenes vs RGPD.

Los problemas son interminables en la confluencia entre la Inteligencia Artificial generativa y la protección de datos personales porque la primera no es una sola cosa sino muchas y la segunda es transversal y se aplica en cada caso –en cada contexto- de manera distinta.

Por eso, vamos a dedicar una serie de posts a la protección de datos aplicada a la IA generativa.

Es decir, a alguno(s) tipo(s) de IA(s) generativa(s). Que no pocos hay.

 

 

Post publicados de esta serie:

1.- IA generativa vs RGPD (I): protegiendo la gallina de los huevos de oro

2.- IA Generativa de texto vs RGPD (II) Es el ¿qué? no el ¿cómo?

3.- IA generativa de imágenes vs RGPD (III): Mitos y preguntas frecuentes (el que estás leyendo ahora)

4.- Inteligencia artificial vs RGPD (IV): Casos prácticos

5.-  Conclusiones: vídeo de la charleta sobre el tema en la UPM (noviembre 2024).

 

Formación sobre RGPD aplicada a IA, Machine learning y decisiones automatizadas del 22…

Te recuerdo que ofrecemos una formación en doble formato: (i) RGPD puro aplicado a casos prácticos y reales de IA con El Chachi, y (ii) presentación y desmenuzamiento del horroroso Reglamento de Inteligencia Artificial con Sara Domingo de Trillateral Research. Esta edición empieza el 9 de octubre: toda la info aquí. Inscripciones en formacion@jorgegarciaherrero.com.

 

Vamos a centrarnos en IAs generativas de imágenes, y en concreto “fotográficas”, pues son las que ofrecen más problemas en protección de datos personales:

Si una IA ha sido entrenada con fotos mías…

¿El modelo de IA almacena mi imagen y puede crear deepfakes con mi cara?

¿Cualquiera meterá mi nombre y saldrá mi foto, vete a saber cuál?

Y la que cuestión terrible que te mantendrá en vela esta noche: Si alguien pide una foto de un abogado calvo, feo y con gafas, ¿Saldrá Jorge García Herrero?

Pero hagamos caso a Jodie Foster en True Detective temporada 4 ….

 

IA generativa de imágenes vs RGPD (III)

 

1.- ¿Cómo se entrena un modelo de IA generativa de imágenes?

Para entrenar un modelo de IA generativa de imágenes, se necesitan enormes datasets. Se trata de proporcionar al modelo la información de la que carece porque su falta de conocimiento (de contacto) con la realida.

En nuestro caso, estos datasets deben ser diversos y representativos del tipo de imágenes que todos los tipos de imágenes que se desean generar.

Si lo que queremos es generar imágenes de personas, necesitaremos muchísimas imágenes de personas, pertenecientes a todos los grupos étnicos y eso que llamamos “razas”.

El volumen, calidad y diversidad del dataset determinarán la capacidad del modelo para aprender patrones variados y generar imágenes coherentes y realistas.

Estos datasets de entrenamiento contienen:

  • Imágenes, por supuesto.
  • Texto en forma de “etiquetas” ligadas a cada imagen, describiendo su contenido (estas “tags” son las que permiten al modelo entender lo que aparece en las imágenes).
  • El resto de información que conste en el dataset vinculada a cada imagen -en términos jurídicos: pueden ser datos o metadatos- (por ejemplo: la información técnica de balance de blancos, objetivo y apertura de diafragma y demás inserta como metadatos en las fotografías) o información contextual (por ejemplo: la descripción de los elementos que aparecen en la imagen, el texto de un artículo al que la imagen sirva de apoyo o ilustración).

 

2.- ¿El dataset contiene datos personales?

El dataset siempre va a incluir imágenes faciales de personas físicas. Estas imágenes se consideran inherentemente datos personales. ¿Por qué?:

  • Una de las formas más sencillas de identificar a una persona que conoces, es por su cara. Eso lo sabe todo el mundo.
  • Es posible, a veces, subir una imagen de alguien que no conoces a Google images y, mediante una búsqueda inversa, averiguar quién es, si los resultados incluyen identificadores o el contexto suficiente.
  • Hay servicios normalmente prestados por empresas desde fuera de la UE, (porque su legalidad es dudosa, por decir lo menos), que identifican, dicen, a cualquier persona con sólo una foto suya.

 

El punto: Un modelo de IA sólo las podrá “identificar” (i) si está entrenado para ello y sólo (ii) tirando de medios aptos y acudiendo a fuentes de información adicionales a las propias imágenes: sea internet, el input del usuario o un servicio de terceros. Quien ha estado en mis formaciones sabe exactamente qué significa esto último.

Ahora sí, formulemos las preguntas correctas:

 

3.- ¿Debe tener el dataset imágenes identificadas por narices?

La respuesta es obvia: salvo que la función del modelo comprenda precisamente la identificación de las personas cuya imagen se procese o genere, el training dataset NO debería contener otra cosa que imágenes y tags descriptivas, pero no identificadores directos o indirectos de las personas incluidas en las imágenes.

Mil razones relacionadas con la protección de datos personales, como los principios de privacy by design, minimización, así lo imponen.

Y la reducción de riesgo en múltiples ámbitos, y la legalidad del conjunto así lo aconsejan.

 

4.- ¿El entrenamiento de modelos de IA generativa debería estar condicionado al consentimiento de las personas cuyas imágenes los alimentan?

¿La empresa que ha creado el dataset ha obtenido el consentimiento, o firmado un contrato, cumplido una obligación legal, etc… de los interesados que aparecen en las imágenes?

Si es así, avanti, faltaría más.

Y créanme, hay casos en que es así: sin ir más lejos todas las empresas que comercializan imágenes de «stock». Porque documentan con sus «modelos» autorizaciones de uso de su imagen en términos amplísimos.

Pero, como es lo común hasta la fecha entre los principales “hacedores” de modelos… ¿se han limitado a escrapear lo que eufemísticamente califican como “contenido publicado en abierto” de “fuentes públicas”?.

La respuesta a esta pregunta puede ser muy corta o muy larga.

La corta es “depende”.

 

[breve break para comentar algo]

Habrán visto esta noticia de esta misma semana sobre una demanda contra la fundación LAION, responsable de un gigantesco dataset escrapeado.

Pues bien,  no lancen su sufrida ropa interior a la cara del guitarrista entoavía: recuerden que:

1.- Lo que ahí se dilucidaba era propiedad intelectual, no protección de datos.

2.- El supuesto concreto era «una (i) entidad sin ánimo de lucro y (ii) con finalidad institucional científica (iii) escrapea contenido de internet y después (iv) entrena con él modelos de IA.

En mi opinión, un supuesto con (i), (ii), (iii) y (iv) es compatible también con el RGPD.

La historia, claro, es (y va a ser) muy diferente cuando se enjuicie a un responsable de tratamiento mercantil y cuya finalidad de tratamiento no es estrictamente «investigación científica». O como es el caso mayoritario, ni siquiera se funciona con «finalidades determinadas» (ni asesoría legal especializada) al entrenar modelos.

[seguimos]

 

Si tienes una relación directa y fluida con los interesados, como la tienen, no sé, Meta con los usuarios de Facebook e Instagram o Twitter, o Linkedin, parece obvio que el consentimiento puede ser una base muy adecuada.

Eso, precisamente eso, explica las reacciones airadas de usuarios y a Dios gracias, Autoridades, que han provocado los intentos de iniciar tratamientos sin avisar como Twitter en verano y Linkedin estos días, y con Meta mamoneando con un short notice y un derecho de oposición laberíntico

Si no tienes ese tipo de relación, no te va a quedar otra que el interés legítimo.

Pero ¿qué pasa con el interés legítimo?. Exacto, que tiene sus reglas.

Y me van a permitir que siga adelante, porque con las respuestas largas me gano la vida.

 

Vamos ahora con los mitos…

 

 

 

«Mitos» de la IA generativa de imágenes vs RGPD

Mito cero: los LLMs te entienden 

Cualquiera que interactúa con un modelo generativo de lenguaje por primera vez tiene la impresión de que está hablando con “alguien”. Más aún, con “alguien consciente” que “entiende” lo que está contestando.

En realidad, como ya se ha explicado por aquí, el modelo entiende la pregunta, pero sólo devuelve el resultado que considera estadísticamente más probable, de acuerdo con su entrenamiento y directrices, sin entender ni una maldita palabra de lo que está “escribiendo” o «contestando».

¿Han visto a toodos esos políticos leyendo como papagayos lo que les han escrito en el papel? Veo que ya lo tienen…

Y por añadidura, si no tiene un resultado probable viable, se lo inventa, porque ha sido programado para dar siempre una respuesta (salvo que lo que se le solicite contravenga alguna otra de sus directrices).

 

¿Y qué pasa con los modelos generativos de imágenes?

MITO 1.- ¿El modelo durante el entrenamiento memoriza las imágenes con las que se entrena?

El modelo durante el entrenamiento no memoriza imágenes específicas, sino sus representaciones matemáticas.

El modelo aprende patrones y características generales que le permiten generar nuevas imágenes coherentes y realistas que son siempre nuevas.

Cuando el usuario del modelo le pide una imagen a través de una “prompt” el modelo traduce o convierte esa prompt en “vectores latentes”.

Esos vectores experimentan transformaciones sucesivas (desde el «ruido» inicial hasta imágenes más perfeccionadas) al propagarse a través de las diferentes capas de la red neuronal.

Las representaciones intermedias se decodifican paso a paso hasta formar una imagen completa.

El punto: La imagen resultante (el “output”) siempre es nueva: el modelo no almacena réplicas de las imágenes originales del dataset: las genera al vuelo cada vez. Por supuesto que puedes entrenar y configurar un modelo para que genere copias los más perfectas posibles de las imágenes objetivo, pero -por cien razones- eso no conviene, y no es lo que se está haciendo hoy.

 

MITO 2.-¿Los modelos de IA identifican a las personas que salen en las imágenes con las que se entrenan?

Un modelo sólo extraerá el patrón biométrico de las imágenes de personas para una finalidad determinada (incluida la de reconocimiento facial) si es específicamente entrenado para ello.

Nunca por defecto como funcionalidad característica o como parte del proceso general de entrenamiento.

Dicho de otro modo: para que un modelo sea capaz de generar una imagen realista de una persona identificada,

  • tiene que haber sido entrenado específicamente para ello, y
  • tiene que ser capaz de identificar a la persona a partir del input del usuario.

 

En otras palabras, el nombre, apellidos u otros identificadores de la persona estaban en el dataset o el modelo ha tenido acceso a ellos por cualquier otra vía.

 

El punto.- Esto no tiene que ser necesariamente así. Quicí: no es necesario, no ocurre en todos los casos.

 

MITO 3.- Vale, un modelo de IA se ha entrenado con fotos de mi cara ¿El modelo generará imágenes random mías? ¿Imágenes de una persona haciendo cualquier cosa… pero con mi cara?

 

Pero este mito 3, y las muchas derivadas relacionadas, las dejamos para la próxima semana.

 

Jorge García Herrero

Abogado y Delegado de protección de datos